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Prefacio 



Este libro se planeó como una introducción a la teoría de la probabilidad y a la infe- 
rencia estadística, para toda persona interesada en las disciplinas aplicadas; econo- 
mía y finanzas, ingeniería y ciencias físicas y de la vida. No es necesario ningún co- 
nocimiento previo de probabilidad y estadística, aunque se espera que el lector se 
encuentre familiarizado con los fundamentos del cálculo diferencial e integral. El 
libro hace hincapié en las aplicaciones. El rigor matemático se emplea únicamente 
con el fin de exponer las bases de la probabilidad y de la estadística, lo que, en opi- 
nión del autor, es un ingrediente necesario para la aplicación efectiva de los méto- 
dos. El texto intenta proporcionar al estudiante un conocimiento que vaya más allá 
de lo superficial, sin abrumarlo con teoría excesiva. En este sentido, la obra brinda 
la oportunidad de reforzar el "porqué", además de presentarle el "cómo" de la 
aplicación. 

A través del texto, cada concepto o método se ilustra con ejemplos reales que se 
expresan de manera que el lector pueda obtener una comprensión intuitiva del con- 
cepto. La mayor parte del desarrollo de la inferencia estadística se fundamenta en el 
punto de vista de la teoría del muestreo. También se explora el enfoque bayesiano 
para dar la perspectiva adecuada. Asimismo, se estudian las suposiciones de los méto- 
dos estadísticos y se dan respuestas a preguntas del tipo "qué pasa si..." Además, en 
muchos ejemplos se emplearon paquetes de programas para computadora y técnicas 
de simulación, con el propósito de ilustrar y reforzar los puntos presentados. 

El material que abarca el libro demuestra ser suficiente para realizar un curso de 
dos semestres sobre probabilidad y métodos estadísticos. Por otra parte, es posible re- 
ordenar el material y asi ofrecer variedad de cursos, como un curso de un semestre 
sobre distribuciones de probabilidad y sus aplicaciones, en el que se empleen los ca- 
pítulos 1 a 7; un curso de dos trimestres sobre los fundamentos de la probabilidad y 
de los métodos estadísticos, con los capítulos 1 a 10; o un curso en análisis de varian- 
za y métodos de regresión, con los capítulos 9, 12, 13 y 14. El alcance de los temas 
que se tratan es amplio, extenso y proporcionan al profesor la oportunidad de recal- 
car ciertos temas u omitir otros. Que el libro pueda emplearse a nivel licenciatura o a 
nivel de graduados, depende tanto de las necesidades particulares como de los cono- 
cimientos previos de los lectores. 

Después de un análisis razonablemente completo sobre la estadística descrip- 
tiva (Cap. 1), el libro está dividido en probabilidad (Caps. 2-7) y métodos esta- 
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dísticos (Caps. 8-15). En los capítulos 2 y 3 se presentan los conceptos básicos de 
probabilidad, variable aleatoria y distribución de probabilidad. Los capítulos 4 y 5 
contienen una exposición bastante completa de las distribuciones de probabilidad 
discretas y continuas, así como sus aplicaciones. En estos capítulos se investigan, 
comparan y contrastan propiedades de distribuciones como la binomial, de Poisson, 
normal, beta, gama y de Weibull, entre otras, proporcionando áreas de aplicación 
para cada una. Dado el creciente papel de las computadoras y las técnicas de simula- 
ción, se dedica una sección del capítulo 5 a la valoración de varios métodos de gene- 
ración de valores aleatorios, en cada una de las distribuciones estudiadas. En el 
capítulo 6 se exponen las distribuciones de probabilidad conjunta y condicional. En 
este contexto, se introducen los conceptos de distribuciones a priori y a posteriori, 
para el punto de vista bayesiano. 

El capítulo siete funciona como transición entre la probabilidad y la inferencia 
estadística. En éste se plantean los importantes conceptos de muestra aleatoria y dis- 
tribución de muestreo. En el capítulo 8 se presentan los métodos de estimación, 
tanto puntual como de intervalo. También se estudian los límites de tolerancia inde- 
pendientes de la distribución y aquéllos cuyo fundamento es la distribución normal. 
En el capítulo 9 se exploran las bases de la inferencia estadística y se presentan 
las pruebas de hipótesis para medias, varianzas y proporciones. El capítulo 10 de- 
talla el uso de la distribución chi-cuadrada, tanto para determinar la bondad del 
ajuste, como para tablas de contingencia, mientras que el capítulo 11 introduce al 
lector en los conceptos básicos del control de calidad estadístico y a los procedimien- 
tos para aceptar una muestra. En el capítulo 12 se presentan el diseño de experimentos 
estadísticos y el análisis de varianza, tanto para experimentos de un solo factor 
como para dos. En los capítulos 13 y 14 se trata, de manera prolija, el análisis de 
regresión; además, se examinan con detalle temas como: errores autocorrelaciona- 
dos, análisis de residuos, mínimos cuadrados con factores de peso, multicolineali- 
dad y distintas formas para determinar el mejor conjunto de variables de predicción. 
Al concluir, el capítulo 15 explora y compara algunos de los procedimientos no 
paramétricos más útiles. 

Al final del capítulo 1 y del 13 se encuentra un apéndice en que se revisa la no- 
tación sumatoria y del álgebra matricial. Las demostraciones de los teoremas más 
importantes se encuentran, para los lectores cuyas inclinaciones son más hacia la 
teoría, en los apéndices de los capítulos 4, 5 y 7. En el apéndice del libro se encuen- 
tran once tablas estadísticas. Se intentó, hasta donde fue posible, uniformar la 
estructura de éstas; por ejemplo, se encuentran tabulados valores para las distri- 
buciones binomial, de Poisson, hipergeométrica y normal, además de los valo- 
res cuantiles para las distribuciones chi-cuadrada, t de Student y F. Las tablas para 
las distribuciones anteriores, excepto la hipergeométrica, se generaron mediante al- 
gunas subrutinas del paquete IMSL (International Mathematical and Statistical Li- 
braries). La similitud con las tablas estadísticas, ya establecidas, es excelente. Los 
paquetes para computadora Minitab y SAS {Statistical Analysis System) se emplea- 
ron con objeto de ilustrar las técnicas del análisis de regresión (Caps. 13 y 14). Se 
supone que el lector tiene acceso a algunos de estos paquetes o a otros similares, 
como el SPSS (Statistical Packagefor the Social Sciences) y BMDP (Biomedical 
Programs). 
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CAPITULO UNO 



Introducción y 
estadística descriptiva 



1.1 Introducción 

Para mucha gente, estadística significa descripciones numéricas. Esto puede verifi- 
carse fácilmente al escuchar, un domingo cualquiera, a un comentarista de televisión 
narrar un juego de fútbol. Sin embargo, en términos más precisos, la estadística es el 
estudio de los fenómenos aleatorios. En este sentido la ciencia de la estadística tiene, 
virtualmente, un alcance ilimitado de aplicaciones en un espectro tan amplio de dis- 
ciplinas que van desde las ciencias y la ingeniería hasta las leyes y la medicina. El as- 
pecto más importante de la estadística es la obtención de conclusiones basadas en los 
datos experimentales. Este proceso se conoce como inferencia estadística. Si una 
conclusión dada pertenece a un indicador económico importante o a una posible 
concentración peligrosa de cierto contaminante, o bien, si se pretende establecer una 
relación entre la incidencia de cáncer pulmonar y el fumar, es muy común que la 
conclusión esté basada en la inferencia estadística. 

Para comprender la naturaleza de la inferencia estadística, es necesario entender 
las nociones de población y muestra. La población es la colección de toda la posible 
información que caracteriza aun fenómeno. En estadística, población es un concep- 
to mucho más general del que tiene la acepción común de esta palabra. En este senti- 
do, una población es cualquier colección ya sea de un número finito de mediciones o 
una colección grande, virtualmente infinita, de datos acerca de algo de interés. Por 
otro lado, la muestra es un subconjunto representativo seleccionado de una pobla- 
ción. La palabra representativo es la clave de esta idea. Una buena muestra es 
aquella que refleja las características esenciales de la población de la cual se obtuvo. 
En estadística, el objetivo de las técnicas de muestreo es asegurar que cada observa- 
ción en la población tiene una oportunidad igual e independiente de ser incluida en 
la muestra. Tales procesos de muestreo conducen a una muestra aleatoria. Las ob- 
servaciones de la muestra aleatoria se usan para calcular ciertas características de la 
muestra denominadas estadísticas. Las .estadísticas se usan como base para hacer in- 
ferencias acerca de ciertas características de la población, que reciben el nombre de 
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parámetros. Así, muchas veces se analiza la información que contiene una muestra 
aleatoria con el propósito principal de hacer inferencias sobre la naturaleza de la 
población de la cual se obtuvo la muestra. 

En estadística la inferencia es inductiva porque se proyecta de lo específico 
(muestra) hacia lo general (población). En un procedimiento de esta naturaleza 
siempre existe la posibilidad de error. Nunca podrá tenerse el 100% de seguridad 
sobre una proposición que se base en la inferencia estadística. Sin embargo, lo que 
hace que la estadística sea una ciencia (separándola del arte de adivinar la fortuna) es 
que, unida a cualquier proposición, existe una medida de la confiabilidad de ésta. 
En estadística la confiabilidad se mide en términos de probabilidad. En otras pa- 
labras, para cada inferencia estadística se identifica la probabilidad de que la infe- 
rencia sea correcta. 

Los problemas estadísticos se caracterizan por los siguientes cuatro elementos: 

1 . La población de interés y el procedimiento científico que se empleó para mues- 
trear la población. 

2. La muestra y el análisis matemático de su información. 

3. Las inferencias estadísticas que resulten del análisis de la muestra. 

4. La probabilidad de que las inferencias sean correctas. 

El enfoque precedente para la inferencia estadística descansa únicamente en 
la evidencia muestral. Éste es denominado teoría del muestreo o enfoque clásico de la 
inferencia estadística y para la mayor parte de ésta, será el que se tome en este libro. 
Sin embargo, también se tratará de incorporar ocasionalmente otro punto de vista 
conocido como inferencia bayesiana. Esta forma de abordar la inferencia estadística 
utiliza la combinación de la evidencia muestral con otra información, generalmente 
proporcionada por el investigador del problema. Tal información descansa de ma- 
• ñera fundamental en la convicción o grado de creencia del investigador con respecto 
a las mcertidumbres del problema, antes de que se encuentre disponible la evidencia 
muestral. Este grado de creencia puede basarse en consideraciones como los resulta- 
dos conocidos, que son producto de investigaciones previas. Es importante que el 
lector comprenda que el objetivo de los procedimientos clásico y bayesiano descansa 
en la evaluación de las incertidumbres basadas en la probabilidad. 

Para comprender la esencia del muestreo aleatorio y de la inferencia estadística, 
es necesario entender como primer punto, la naturaleza de una población en el con- 
texto de la probabilidad y de los modelos probabilísticos. Estos temas se examinan 
con detalle en los capitulos dos a seis. 

Este capítulo tratará brevemente las estadísticas descriptivas. A pesar de que és- 
tas son sencillas desde el punto de vista matemático, son valiosas en casos donde, se 
encuentra disponible la población completa y no existe incertidumbre, o cuando 
se tienen a la mano grandes conjuntos de datos que pueden o no considerarse como 
muestras aleatorias. Si un conjunto grande se considera como muestra aleatoria <le 
una población, la estadística descriptiva puede ir tan lejos como la distribución gene- 
ral de valores, al dar una evidencia empírica y otras características de la población. 
Esta evidencia tiene un apreciable valor puesto que afirma ciertas suposiciones que 
deben formularse en la aplicación de la inferencia estadística. 
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1.2 Descripción gráfica de ios datos 

Una descripción informativa de cualquier conjunto de datos está dada por la fre- 
cuencia de repetición u arreglo distribucional de las observaciones en el conjunto. 
Para apreciar lo necesario de un resumen de datos, considere el ejemplo del Servicio 
de Hacienda Interno (SHI) que se encarga de recibir y procesar millones de declara- 
ciones de ingresos durante todo el año. Es dudoso que el SHI pueda descubrir los 
patrones ocultos de ingresos e impuestos examinando simplemente la información 
contenida en las declaraciones. Similarmente, el Departamento del Censo no podría 
avanzar mucho al analizar los datos del censo, si éstos no pudiesen visualizarse. Para 
identificar los patrones en un conjunto de datos es necesario agrupar las observa- 
ciones en un número relativamente pequeño de clases que no se superpongan entre sí, 
de tal manera que no exista ninguna ambigüedad con respecto a la clase a que perte- 
nece una observación en particular. El número de observaciones en una clase recibe 
el nombre de frecuencia de clase, mientras que el cociente de una frecuencia de clase 
con respecto al número combinado de observaciones en todas las clases se conoce 
como la frecuencia relativa de esa clase. Las fronteras de la clase se denominan 
límites, y el promedio aritmético entre los límites superior e inferior recibe el nombre 
de punto medio de la clase. Al granearse las frecuencia relativas de las clases contra 
sus respectivos intervalos en forma de rectángulos, se produce lo que comúnmente 
se conoce como histograma de frecuencia relativa o distribución de frecuencia relati- 
va. Esta última es la que puede hacer evidentes los patrones existentes en un conjun- 
to de datos. 

Como ilustración, los datos de la tabla 1.1 representan las frecuencias de unidades 
vendidas por día de un determinado producto por una compañía. El histograma de 
frecuencia relativa se construye graneando en el eje vertical la frecuencia relativa y 
en el* eje horizontal las fronteras inferiores de cada clase, como se ilustra en la fi- 
gura 1.1. 

El número de clases que se emplea para clasificar los datos en un conjunto de- 
pende del total de observaciones en éste. Si el número de observaciones es relativa- 
mente pequeño, el número de clases a emplear será cercano a cinco, pero general- 



TABLA 1.1 Frecuencias para el 


número de unidades vendidas de cierto producto 


Número de unidades 


Frecuencia de 




vendidas (Clase) 


la clase 


Frecuencia relativa 


80-89 


7 


7/100 = 0.07 


90-99 


20 


20/100 = 0.20 


100-109 


5 


5/100 = 0.05 


110-119 


11 


11/100 = 0.11 


120-129 


11 


11/100 = 0.11 


130-139 


12 


12/100 = 0.12 


140-149 


6 


6/100 = 0.06 


150-159 


23 


23/100 = 0.23 


160-169 


5 


5/100 '= 0.05 


Total 


.100 


1.00 



4 Introducción y estadística descriptiva 























0.20 

c« 

■3 0.15 

u 

CS 














o 












S 0.10 














0.05 


— ^^ 



















80 90 100 110 120 130 140 150 
Número de unidades vendidas 



160 170 



FIGURA 1.1. Histograma de frecuencia relativa para el número de unidades vendidas 



mente nunca menor que este valor. Si existe una cantidad sustancial de datos, el nú- 
mero de clases debe encontrarse entre ocho y doce y generalmente no existirán más 
de 15 clases. Un número muy pequeño de clases puede ocultar la distribución real del 
conjunto de datos, mientras que un número muy grande puede dejar sin observa- 
ciones a algunas de las clases, limitando de esta forma su uso. A manera de ilustra- 
ción, si se reducen las nueve clases a sólo tres, en el ejemplo anterior, como se indica 
en la tabla 1.2, el histograma de frecuencia relativa resultante (Fig. 2) es muy dife- 
rente al mostrado en la figura 1.1. 

Una buena practica es la creación de clases que tengan una longitud igual. Esto 
puede lograrse tomando la diferencia entre los dos valores extremos del conjunto de 
datos y dividiéndola entre el número de clases; el resultado será aproximadamente la 
longitud del intervalo para cada clase. Sin embargo, existen casos donde esta regla 
no puede o no debe aplicarse. Por ejemplo, si se tuviera a la mano la lista de impues- 
tos de SHI pagados por la población en un año, estas cantidades pueden encontrarse 



TABLA 1.2 Frecuencia para el número de unidades vendidas de cierto producto 



Número de unidades 
vendidas (Cíase) 



Frecuencia de 
la clase 



Frecuencia relativa 



80-109 
1 10-139 
140-Í69 

Total 



32 
34 
34 

100 



32/100 =■ 0.32 
34/100 = 0.34 
34/100 = 0.34 

1.00 
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FIGURA 1.2 Histograma modificado para el número de unidades vendidas 



en un intervalo de $0 a $1 000 000. Aun a pesar de que se eligiesen 20 clases para la 
distribución de frecuencia relativa, con intervalos de igual longitud, cada clase 
tendría una cobertura de $50 000. Lo anterior daría origen a una situación en la que 
casi todas las observaciones caerían en la primera clase. Para casos como éste es pre- 
ferible seleccionar una escala más pequeña en el extremo inicial que la utilizada para 
el extremo superior. Esta elección aclarará el patrón de la distribución. 
Los siguientes ejemplos ilustran estos conceptos. 

Ejemplo 1.1 De acuerdo con la revista Informes al Consumidor en su número de 
febrero de 1980, las cuotas anuales de 40 compañías para un seguro de $25 000 para 
hombre de 35 años de edad son las siguientes: 



$ 82 


85 


86 


87 


87 


89 


89 


90 


91 


91 


92 


93 


94 


95 


95 


95 


95 


95 


97 


98 


99 


99 


100 


100 


101 


101 


103 


103 


103 


104 


105 


105 


106 


107 


107 


107 


109 


110 


110 


111 



Establecer un esquema de agrupamiento para este conjunto de datos y determinar 
las frecuencias relativas. 



Dado que la diferencia entre los dos valores extremos del conjunto es de sólo 
$29, puede ser razonable agrupar los datos en clases con intervalos de igual longitud. 
Supóngase que se decide utilizar seis clases; entonces el intervalo de cada clase será 
aproximadamente de $5. Para establecer las fronteras de cada clase, es necesario 
considerar la unidad más cercana con respecto a la cual se miden las observaciones. 
En este ejemplo las cuotas se presentan redondeadas al dólar más cercano. Con toda 
seguridad el importe de las cuotas es conocido hasta centavos, pero sólo se presentan 
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entre $81.50 y $82.49, las seis clases con sus respectivas fronteras son (81.5-86.5), 
(86.5-91.5), (91.5-95.5), (96.5-101.5), (101.5-106.5) y (106.5-111.5). 

Estas fronteras también se conocen como los límites verdaderos debido a que 
reflejan la unidad más pequeña que se emplea para tomar las observaciones. Dado 
que las cuotas se presentan redondeadas al dólar más cercano, se puede también 
elegir los límites de las seis clases como (82-86), (87-91), (92-96), (97-101), (102-106) 
y (107-111). Estos se conocen como los límites de escritura puesto que reflejan el 
mismo grado de precisión que el de las observaciones presentadas. El intervalo de la 
clase es la diferencia entre los limites verdaderos de cada clase, mientras que los pun- 
tos medios pueden determinarse al utilizar los límites verdaderos o los de escritura. 
En la tabla 1.3 se da un resumen de la información pertinente para el agrupamiento 
de este ejemplo. 

De acuerdo con lo mencionado al principio de esta sección, la distribución de fre- 
cuencia relativa se determina graneando las frecuencias relativas en el eje vertical 
contra los límites de escritura inferiores para cada una de las clases en el eje horizon- 
tal. Para este fin se emplean rectángulos de igual anchura que representen las fre- 
cuencias relativas. En la figura 1.3 se muestra el histograma del ejemplo 1.1. Nótese 
que es más fácil graficar las frecuencias de cada clase que las correspondientes fre- 
cuencias relativas; en ambos casos las gráficas serán idénticas. Si existe alguna prefe- 
rencia para usar las frecuencias relativas, se debe a que la escala vertical tiene un in- 
tervalo fijo de cero a uno. 

El principal objetivo de la representación gráfica de las frecuencias relativas es 
mostrar el perfil de distribución de los datos. El conocimiento de este perfil es útil en 
varias formas, como sugerían los análisis apropiados que se intentarán mediante la 
inferencia estadística, o si los datos constituyen una muestra aleatoria de alguna 
población o si se utilizan con el fm de comparar los perfiles de distribución de dos o 
más conjuntos de datos. En el ejemplo 1.1. es notorio que la distribución de cuotas 
anuales en las 40 compañías es uniforme a través de todo el intervalo de valores. 

Otra caracterización gráfica útil, de un conjunto de datos, es la distribución de 
frecuencia relativa acumulada u ojiva. La distribución acumulativa se obtiene gran- 
eando, en el eje vertical, la frecuencia relativa acumulativa de una clase contra el 

TABLA 1.3 Agrupamiento y frecuencias relativas para el ejemplo 1.1 



limites de escritura 
de la clase 


Punto 
medio 


Frecuencia de la clase 
f t 


Frecuencia relativa 
fi/n 


82-86 

87-91 

. 92-% 

97-101 

102-106 

107-111 


84 
89 
94 
99 
104 
109 

Total 


3 
7 
8 

x 7 
7 

40* 


3/40 = 0.075 
7/40 = 0.175 
8/40 = 0.200 
8/40 = 0.200 
7/40 = 0.175 
7/40 = 0.175 

1.000 
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FIGURA 1.3 Distribución de frecuencia relativa para los datos del ejemplo 1.1 

límite inferior de la siguiente sobre el eje horizontal y uniendo con segmentos todos 
los puntos consecutivos. La tabla 1.4 lista las frecuencias relativas acumuladas para 
el ejemplo 1.1. 

Dado que la frecuencia relativa de una clase refleja la proporción de las observa- 
ciones contenidas en ésta, la frecuencia relativa acumulativa es la proporción de ob- 
servaciones cuyos valores son menores o iguales al límite superior de la clase o, en 
forma equivalente, menores que el límite inferior de la siguiente clase. En el ejemplo 
1 . 1 y para la tabla 1 .4, la proporción de cuotas menores de $82 es cero. La de cuotas 
menores de $87 es de 0.075, la proporción de menores de $92 es de 0.250. La distri- 
bución de frecuencia relativa acumulativa para el ejemplo 1.1 se muestra en la figu- 
ra 1.4. 

En este contexto el principal uso de la distribución acumulativa es lo que común- 
mente se conoce como cuantiles. Con i especio a una distribución de frecuencia rela- 
tiva acumulativa, se define un cuantil como el valor bajo el cual se encuentra una de- 
terminada proporción de los valores de la distribución. El valor del cuantil se lee en 



TABLA 1.4 Distribución de la frecuencia relativa acumulativa 



Límites de 

escritura de 

la clase 



Frecuencia 
de clase 



Frecuencia 
acumulativa 



Frecuencia relativa 
acumulativa 



82-86 
87-91 
92-% 
97-101 
102-106 
107-111 



3 
7 
8 
8 

7 
7 



3 
10 
18 
26 
33 
40 



3/40 
10/40 
18/40 
26/40 
33/40 
40/40 



0.075 
0.250 
0.450 
0.650 
0.825 
1.000 



1.0 r 




«0.9 



'0.25 



109.5 
= 92 



FIGURA 1.4 Distribución de frecuencia relativa acumulativa para el ejemplo 1.1 

la dirección opuesta, en el eje horizontal, a la proporción correspondiente deseada 
sobre el eje vertical. El cuantii más común es el percentil. Por ejemplo, q 02 e $ el 
valor bajo el cual se encuentra el 20% de los valores de la distribución y g 09 es aquél 
bajo el cual se encuentra el 90% de los valores de la distribución. 

Ejemplo 1.2 El departamento de Agricultura de Estados Unidos informó que, en 
1976, los ingresos netos por cosecha para los 50 estados de la nación, fueron los si- 
guientes: 



$ 5 952 


63 855 


39 362 


9 692 - 


27 611 


13 647 


10 630 


6644 


4 438 


19 106 


8 681 


5 332 


2 304 


6 859 


8 141 


11 771 


9 378 


5 992 


7000 


12 543 


4 963 


4 543 


11 177 


12 292 


6 695 


10 207 


7 627 


8 992 


23 811 


7 657 


8 043 


8 972 


6 480 


6 824 


9 554 


4 626 


4 845 


10 452 


9 922 


7 683 


5 119 


8 621 


2 290 


4 973 


3904 


2 892 


5 405 


2 789 


30 


241 



Establecer un esquema de agrupamiento para este conjunto de datos y determinar 
las frecuencias relativas. 
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TABLA 1.5 Frecuencias relativas para el ejemplo 1.2 con intervalos de igual longitud 



Límites de escritura de la clase Frecuencia de la clase Frecuencia relativa 

0-7 999 27 0.54 

8 000-15 999 18 0.% 

16 000-23 999 2 0.04 

24 000-31999 1 0.02 

32 000-39 999 1 0.02 

40 000-47 999 

48 000-55 999 

56 000-63 999 I 0.02 

Total 50 1 .00 



Supóngase que se decide emplear ocho clases de igual longitud. Puesto que la di- 
ferencia entre los dos valores extremos del conjunto de datos es aproximadamente 
de $64 000, la longitud de cada clase es de $8 000 y los límites son (-0.5-7 999.5), 
(7 999.5-15 999.5), .... (55 999.5-63 999.5). Las frecuencias de cada clase y las fre- 
cuencias relativas para este esquema de agrupamiento se dan en la tabla 1.5. Tal es- 
quema resulta inadecuado porque el 90% de las observaciones se encuentran en las 
dos primeras clases y existen otras dos que no tienen ninguna observación. Este 
ejemplo ilustra un conjunto de datos para el que no deben usarse intervalos de igual 
longitud, ya que se tiene un agregado muy alto de observaciones con sólo algunas 
cuantas dispersas alrededor de éste. En el ejemplo 1.2 existe mayor concentración de 
datos en el extremo inferior que en el superior. Por consiguiente, considérese/ el si- 
guiente esquema de agrupamiento de ocho clases con limites (-0.5-1 999.5), 
(1 999.5-3 999.5), (3 999.5-5 999.5), (5 999.5-7 999.5), (7 999.5-11 999.5), 
(11 999.5-27 999.5), (27 999.5-43 999.5), (43 999.5-75 999.5). La tabla 1.6 contiene 
las frecuencias relativas para este esquema, mientras que en la figura 1.5 se muestra 
la distribución de frecuencias. 

Al determinar la distribución de frecuencia relativa de la figura 1.5, se empleó la 
altura del rectángulo en la representación de la frecuencia relativa de cada clase, de 
la misma manera como se hizo en el ejemplo 1 . 1 . Sin embargo, a causa de que los 
intervalos no tienen la misma longitud, la figura 1 .5 produce la impresión errónea de 
que, por ejemplo, la clase (12 000-27 999) contiene más del 12% de las observa- 
ciones. Lo anterior se debe a que cuando se comparan figuras geométricas, como los 
rectángulos, se tiende más a comparar el área que la altura. Cuando los intervalos de 
clase son idénticos, el área de los rectángulos representa las frecuencias. Sin embargo 
cuando la longitud de los intervalos es diferente, como en el ejemplo 1 .2, las áreas 
no representan la frecuencia. Por lo tanto, es necesario ajustar la altura de los rec- 
tángulos para que sus áreas sean proporcionales a la frecuencia. Este procedimiento 
representa de manera correcta las frecuencias para intervalos de diferente longitud. 

Para ilustrar este método, en el ejemplo 1.2, se observa que las longitudes de las 
primeras cuatro clases son idénticas. Entonces deben ajustarse las últimas cuatro con el 
fin de que sus longitudes se relacionen con las de las primeras cuatro clases (de 
$2 000). Las alturas de los rectángulos correspondientes a las cuatro últimas clases se 
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FIGURA 1.5 Distribución de frecuencia relativa para los ingresos por cosecha del año 1976 

ajustan de tal forma que su área se encuentra en la misma proporción (2 000) con res- 
pecto a sus frecuencias relativas que las de los rectángulos de las primeras cuatro cla- 
ses. Las alturas de las primeras cuatro siguen siendo las mismas que aparecen en la úl- 
tima columna de la tabla 1 .6, mientras que las alturas corregidas para las últimas 
cuatro son 0.15, 0.015, 0.0025 y 0.00125 respectivamente. En este momento debe 
notarse que la suma de todas estas nuevas alturas es de 0.70875 y no de 1 .00, como es 
requerido para frecuencias relativas. Una división por 0.70875 convertirá estas altu- 
ras a las frecuencias relativas deseadas. En la tabla 1 .7 aparecen las frecuencias rela- 
tivas corregidas y en la figura 1 .6 se da la correcta representación de la distribución 
de frecuencia relativa. 



TABLA 1.6 Frecuencias relativas para el ejemplo 1.2 con intervalos de distinta longitud 



Límites de escritura de la clase 



Frecuencia de la clase 



Frecuencia relativa 



0-1 999 

2 000-3 999 

4 000-5 999 

6 000-7 999 

8000-11999 

12 000-27 999 

28 000-43 999 

44 000-75999 



\ 



2 
5 

11 
9 

15 
6 
1 
1 



0.04 
0.10 
0.22 
0.18 
.0.30 
0.12 
0.02 
0.02 



Total 



50 



1.00 
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TABLA 1.7 

longitud 



Frecuencias relativas corregidas para el ejemplo 1.2 con intervalos de distinta 



Límites de escritura de la clase 



Frecuencia relativa corregida 



0-1 999 

2,000-3 999 

4,000-5 999 

6,000-7 999 

8,000-11 999 

12,000-27 999 

28,000-43 999 

44,000-75 999 

Total 



0.0564 
0.1411 
0.3104 
0.2540 
0.2116 
0.0212 
0.0035 
0.0018 

1.0000 



1.3 Medidas numéricas descriptivas 

En la sección anterior se plantearon las técnicas gráficas para descubrir los patrones 
de distribución ocultos en un conjunto de datos. En esta sección se definen algunas 
medidas numéricas que se emplean comúnmente para describir conjuntos de datos. 
Si el conjunto es una muestra aleatoria de una población y la última meta es hacer 
inferencia estadística, estas medidas serán utilizadas como bases para las inferen- 
cias, tal como se menciona en los capítulos 7 a 9. 
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FIGURA 1.6 Distribución de frecuencia relativa corregida para los ingresos por cosecha del 
año 1976 
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Existen dos medidas de interés para cualquier conjunto de datos: la localización 
de su centro y su variabilidad. La tendencia central de un conjunto de datos es la dis- 
posición de éstos para agruparse ya sea alrededor del centro o de ciertos valores nu- 
méricos. La variabilidad de un conjunto de datos es la dispersión de las observa- 
ciones en el conjunto. 

Existen principalmente tres medidas de tendencia central: la media, la mediana y 
la moda. 

Definición 1.1 La media de las observaciones jc, , x 2 , ..., x n es el promedio arit- 
mético de éstas y se denota por 

n 

x=J J x i /n. (1.1) 



La media es una medida apropiada de tendencia central para muchos conjuntos 
de datos. Sin embargo, dado que cualquier observación en el conjunto se emplea 
para su cálculo, el valor de la media puede afectarse de manera desproporcionada 
por la existencia de algunos valores extremos. 

Definición 1.2. La mediana de un conjunto de observaciones es el valor para el 
cual, cuando todas las observaciones se ordenan de manera creciente, la mitad de és- 
tas es menor que este valor y la otra mitad mayor. 

Si el número de observaciones en el conjunto es impar, la mediana es el valor de 
la observación que se encuentra a la mitad del conjunto ordenado. Si el número es 
par se considera la mediana como el promedio aritmético de los valores de las dos 
observaciones que se encuentren a la mitad del conjunto ordenado. Alternativamen- 
te, la mediana puede determinarse a partir de la distribución acumulativa, es decir, 
la mediana es el percentil cincuenta. 

Puesto que la mediana es un valor que se basa en la secuencia ordenada de las ob- 
servaciones en un conjunto de datos, es necesario saber que la existencia de algunos 
valores extremos no afectará su valor. Por lo tanto, si un conjunto contiene unos 
cuantos valores extremos y un agregado muy alto de observaciones, la mediana 
puede ser una medida de tendencia central mucho más deseable que la media. Gene- 
ralmente los conjuntos de datos que describen información acerca de ingresos caen 
en esta categoría. 

Definición 1.3 La moda de un conjunto de observaciones es el valor de la observa- 
ción que ocurre con mayor frecuencia en el conjunto. 

La moda muestra hacia qué valor tienden los datos a agruparse. En conjuntos re- 
lativamente pequeños, puede que no exista un par de observaciones cuyo valor sea el 
mismo. En esta situación no es clara la definición de moda. También puede suceder 
que la frecuencia más alta se encuentre compartida por dos o más observaciones. En 
estos casos, la moda tiene una utilidad limitada como medida de tendencia central. 
Si se ha determinado una distribución de frecuencia relativa, la clase con la frecuen- 
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cía más alta recibirá el nombre de clase modal, con lo que se define a la moda como 
el punto medio de esa clase. En este caso la clase modal sirve como punto de con- 
centración en el conjunto de datos. 

Para las observaciones del ejemplo 1.1 la media se calcula como 

82 + 85 + ••• + 111 _ 

x = = $97.90. 

40 

La media para el ejemplo 1 .2 es 

5,952 + 63.855 + - + 24! 

50 

La mediana del ejemplo 1 . 1 es el promedio artimético de los valores de las obser- 
vaciones 20 y 21 en la secuencia ordenada de éstas, ya que existe un número par de 
observaciones. La mediana es (98 + 99)/2 = $98.50. Similarmente, la mediana del 
ejemplo 1.2 es el promedio aritmético de los valores de las observaciones 25 y 26 en 
la secuencia ordenada de éstas, o (7 627 + 7 657)/2 = $7 642. Se observa que la moda 
en el ejempo 1 . 1 es $95 porque este valor es el que ocurre con mayor frecuencia; sin 
embargo, para el ejemplo 1.2 la moda no está claramente definida puesto que nin- 
gún valor se repite. Nótese que para el ejemplo 1.1 los valores de la media, mediana y 
moda se encuentran muy cercanos, relativamente, entre sí. Esto se debe a que las 
cuotas se encuentran distribuidas de manera uniforme sobre el intervalo completo de 
valores. Para el ejemplo 1.2 la media es sustancialmente mayor que la mediana, de- 
bido a que la primera se encuentra afectada de manera desproporcionada por los 
ingresos por cosecha de algunos estados, los que son muy grandes comparados con 
los de otros. Asi, para este conjunto de datos la mediana de $7 642 podría ser una 
medida de tendencia central mucho más real. 

Muchas veces la única información disponible es una tabla de frecuencias, como 
las tablas 1.3 a 1.6. En estos casos sólo es posible obtener valores aproximados para 
la media, mediana y moda — o para cualquier otra medida numérica descriptiva — ; 
los valores exactos pueden calcularse únicamente a partir de las observaciones indi- 
viduales del conjunto o de los datos no agrupados. Los cálculos aproximados se 
basan en los puntos medios de cada clase y sus respectivas frecuencias. En general, 
mientras más pequeña sea la longitud de la clase y mayor la uniformidad de las ob- 
servaciones en ésta, mayor será la similitud entre las medidas descriptivas calculadas 
en los datos agrupados y no agrupados. 

Para calcular la media con base en los datos agrupados, sea k el número de clases 
y x¡ el punto medio de la /-ésima clase. Entonces el valor aproximado de la media es 

.'::'•'" ; -..'' x.= '2/-V«.- (1-2) 

m., ,;.c;--- ; ■; ,.■=■:,. ■.. .*-':.. . . ..... 

efi 'donde/- es la frecuencia de la /-ésima clase y n = 2f =l f¡. Nótese que en esta 
fórmula la frecuencia de la clase representa la frecuencia relativa de las observaciones 
dentro de cada clase. Es decir, entre más observaciones tenga una clase mayor será el 
peso del punto medio de ésta en el cálculo de la media. La afirmación anterior gene- 



TABLA 1.8 Calculo aproximado de la media para el ejemplo 1.1 



Punto medio 


Frecuencia de 




de la clase 


la clase 




x¡ 


f, 


fiX, 


84 


3 


252 


89 


7 


623 


94 


8 


752 


99 


8 


792 


104 


7 


728 


109 


7 


763 


Total 


40 


3 910 



n = £¿ = 40 

i= i 

6 

Y,f¡x¡ = 3 910 

i- I 

6 

x = *ZfiX,/n = 3 910/40 = $97.75 



raímente es cierta en la determinación de medidas numéricas con base en datos agru- 
pados. 

Se ilustrarán los procedimientos computacionales para determinar las medidas 
descriptivas numéricas empleando el ejemplo 1.1 y en particular los límites y frecuen- 
cias de cada clase expuestos en la tabla 1 .3. La información más importante aunada 
al cálculo de la media se muestra en la tabla 1.8. 

Para datos agrupados, la mediana es aquel valor que divide en dos partes iguales 
la distribución de frecuencia relativa. La fórmula computacional está dada por 

Mediana = L + c(j/f m ), (1.3) 

en donde L es el limite inferior de la clase donde se encuentra la mediana, f m es la 
frecuencia de esa clase, c es la longitud de la clase y y es el número de observaciones 
en esta clase, necesarias para completar un total de n/2. Para determinar la mediana 
esta fórmula en esencia, se interpola linealmente en la clase que contiene a la media- 
na. Así, se supone que las observaciones se encuentran distribuidas uniformemente 
dentro de la clase. 

La mediana para los datos agrupados del ejemplo 1.1 se determina utilizando la 
información contenida en la tabla 1 .3. El número total de observaciones es 40 y n/2 
es 20. Puesto que la suma de las frecuencias de las primeras tres clases es 18 y la de 
las primeras cuatro es 26, la mediana se encuentra en la cuarta clase, cuyo limite in- 
ferior es 97. Del total de observaciones en ésta clase, que es ocho, se necesitan dos 
más para alcanzar el valor de 20. Mediante el empleo de la fórmula, la mediana re- 
sulta ser 

Mediana = 97 + 5(2/8) = $98.25. 

Como se mencionó anteriormente, la moda se toma, para datos agrupados, como 
el punto medio de la clase que presenta una mayor frecuencia. En el ejemplo 1.1 la 
frecuencia más alta se encuentra compartida por las clases (92-96) y (97-101). Con 
base en lo anterior, la moda resulta ser «1 promedio aritmético entre los dps puntos 
memos de las clases, o (94 + 92)/2; = $%.50..,C.. ..,•; . ,, . , r . 

. Una medida de tendencia central proporciona información acerca de un conjun- 
to de datos pero no proporciona ninguna idea de la variabilidad de las observaciones 
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en dicho conjunto. Por ejemplo, considere los dos siguientes conjuntos de datos, 
cada uno de los cuales consiste de cuatro observaciones: 0, 25, 75, 100; 48, 49, 51, 
52. En ambos casos, media = mediana = 50. Estos dos conjuntos son muy diferen- 
tes entre sí, sin embargo las observaciones en el primero se encuentran mucho más 
dispersas que las del segundo. Una de las medidas más útiles de dispersión o va- 
riación es la varianza. 

Definición 1.4 La varianza de las observaciones x , , x 2 , • • • , x n es, en esencia, el pro- 
medio del cuadrado de las distancias entre cada observación y la media del conjunto 
de observaciones. La varianza se denota por 

n 

s 2 = lix, - xf/(n - 1). (1.4) 



La varianza es una medida razonablemente buena de la variabilidad debido a que 
si muchas de las diferencias son grandes (o pequeñas) entonces el valor de la varian- 
za s 2 será grande (o pequeño). El valor de la varianza puede sufrir un cambio muy 
desproporcionado, aún más que la media, por la existencia de algunos valores extre- 
mos en el conjunto. 

Definición 1.5 La raíz cuadrada positiva de la varianza recibe el nombre de des- 
viación estándar y se denota por 



= /5>/-*>7(n- I)- ' 0-5) 



La varianza y la desviación estándar no son medidas de variabilidad distintas, 
debido a que la última no puede determinarse a menos que se conozca la primera. 
A menudo se prefiere la desviación estándar en relación con la varianza, porque se 
expresa en las mismas unidades físicas de las observaciones. 

Cuando se calcula el valor de la varianza, ya sea a mano o mediante el uso de una 
calculadora de baja capacidad, y el valor de la media o los valores de las observa- 
ciones no son números enteros, el uso de la ecuación (1 .4) puede dar origen a errores 
grandes por redondeo. Con un poco de álgebra se obtiene, a partir de (1 .4), una fórmu- 
la computacional más exacta para esas condiciones:* 



s 2 = 2 fe - xf/in - 1) 
2tó - 2jcjc, + ]f 2 ) 



n-\ 
* Para un repaso de la notación de suma véase el apéndice de este capítulo. 
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2 x) - 2x 2 x¡ + iñ 1 



n - 1 



»(s„)(s«) {l* 

¿,x 2 ¡ + 



n 2 



n - I 



2*?- 



2*f 

/=! «_ 

n - 1 



(1.6) 



Nótese que para el numerador de la ecuación (1 .4) primero debe calcularse la media, 
restarla de cada observación, tomar el cuadrado y entonces sumar. Para el numera- 
dor de (1.6) se suman todos los cuadrados de los valores observados, y entonces se res- 
ta el cuadrado de su suma dividido por el número de observaciones. Con base en la 
ecuación (1 .6), la desviación estándar está dada por 




Z' ! ,- {!', /» 



A continuación se ilustran los pasos que se deben seguir para el cálculo de la va- 
rianza y la desviación estándar, para los datos no agrupados de los ejemplos 1.1 y 
i 2. Para el ejemplo 1.1, 

40 

2 *,- = 82 + 85 + - + III = 3 916 

/= i 

• ; 40 

X x] = 82 2 + 85 2 + ••■ + III 2 = 385 756. 

1=1 

Se usa la ecuación (1.6), x 

385756-^^ ■ 

, 40-' > 

5 =" 40-1 =61 ° 154 - 



De la ecuación (1.7) se sigue que la desviación estándar es 5 = V61.0154 = 
$7.81. 
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Para el ejemplo 1 .2 se tiene 



50 



2 x, ■ = 5 952 + 63 855 + ••• + 241 = 490 567, 
i= i 

50 

2 x) = 5 952 2 + 63 855 2 + ••• + 241 2 = 10 000 514 273, 



¿=i 



490 567 2 
10 000 514 273 — — 

s 1 = — = 105 865 196.8. 

La desviación estándar es s = $10 289.08. 

Para datos agrupados, puede calcularse el valor aproximado de la varianza me- 
diante el uso de la fórmula 



iMxt-x) 2 
n - 1 



(1.8) 



E/tí 

s 2 = ^ 7-?— (1-9) 

n — 1 



La fórmula para la desviación estándar es 



* = JlMxi-VVin- I)- (110) 



Para las tres fórmulas anteriores f¡ y x¡ son, respectivamente, la frecuencia y el 
punto medio de la /-ésima clase, y n es. la suma de todas las frecuencias. Debe notarse 
que, en datos agrupados, la aproximación a la varianza puede no ser muy confiable, 
especialmente si las observaciones no se encuentran distribuidas de manera uniforme 
dentro de sus respectivas clases. £1 cálculo de los valores aproximados de la varianza 
y la desviación estándar, páralos datos agrupados del ejemplo LJ»'Se encuentra de- 
tallado en la tabla 1.9. ')hc. 1 o?,'u[h^ '...;-,-,■ ; ;fnr j ¡ : > : - 

Otra medida útil de la variabilidad tiene base en el valor-absoluto de las diferen- 
cias entre las observaciones x v x 2 ...x n y la media o la mediana, dependiendo de cual 
de las dos se emplee como medida de tendencia central. 
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TABLA 1.9 Cálculo de los valores aproximados de la varianza y la desviación estándar para 
el ejemplo 1.1 



Punto medio 
de la clase 

x¡ 


Frecuencia de 
la clase 

f, *■ 


f,x) 


(tj<* 


Íf,x, 
'■) / 40 


= 3 910 (de la tabla) 1.8) 


84 


3 


7 056 


21 168 


= 382 202.5 


89 


7 


7 921 


55 447 


\,Tl 


// 




94 


8 


8 836 


70 688 




6 




99 
104 


8 

7 


9 801 
10 816 


78 408 

75 712 




í=i 


= 384 590 


109 


7 


11 881 


83 167 




2 


384 590 - 382 202.5 


Total 


40 


11 881 


384 590 




S 


40 - 1 



= 61.2179 



s = V61.2179 = $7.82 



Definición 1.6 La desviación media es el promedio de los valores absolutos de las 
diferencias entre cada observación y la media de las observaciones. La desviación 
media está dada por 

n 

2k- - *l 

D.M. =— . (1.11) 

n 

Para datos agrupados, el valor de la desviación media se aproxima por 

* 

D.M. = '^— k . (1.12) 

2/, 

Los términos empleados en estas expresiones son los mismos definidos anterior- 
mente. 

La desviación media es una medida interesante de la variación, especialmente en el 
contexto de la evidencia empírica, debido a que en muchas ocasiones el interés se 
centra en las desviaciones y no en los signos de éstas. Sin embargo, desde un punto de 
vista teórico, el empleo de la desviación media como medida de dispersión está en 
desventaja dado que, matemáticamente, es difícil de obtener. De cualquier manera, 
la desviación media es menos sensible a los efectos inducidos por las observaciones 
extremas del conjunto de datos que la varianza o la desviación estándar/ Sin impor 1 
tar la presencia de pocos valores extremos, la desviación media puede! proporcio- 
nar una medida de dispersión mucho más real que la obtenida por la desviación es- 
tándar. 



1.3 Medidas descriptivas numéricas 19 

Para los datos no agrupados del ejemplo 1.1, la desviación media se calcula a 
partir de 

40 

£k - *| = |82 - 97.9| + |85 - 97.9| + - + |111 - 97.9| - 264.2 

para ser 

D.M. = 264.2/40= $6.61. 

De manera similar para el ejemplo 1.2, la desviación media se calcula a partir de 

50 

2k - x\ = |5 952 - 9 811.34| + |63 855 - 9 811.34| + - + |241 - 9 811.34| 
í=i 

= 278 051.48 

para ser 

D.M. = 278 051.48/50 = $5 561.03. 

Los pasos computacionales para una aproximación de la desviación media a los 
datos agrupados del ejemplo 1.1, se ilustran en la tabla 1.10. 

Definición 1.7 La desviación mediana es el promedio de los valores absolutos de 
las diferencias entre cada observación y la mediana de éstas. La desviación mediana 
está dada por 



2\x,-DMd\ 



f=i 



D.Md.=^ , (1.13) 

n 

en donde Md denota a la mediana. 

Cuando la mediana se emplea como medida de tendencia central con el propósito 
de atenuar los efectos de la existencia de algunos valores extremos en el conjunto, 

TABLA 1.10 Cálculo aproximado de la desviación de la mediana para el ejemplo 1.1 



Punto medio 
de la clase 

' x¡ 


Frecuencia de 
la clase 

f, 


\x¡ - x\ 


/•k - A 




84 
89 
94 
99 
* 104 
109 


3 
7 
8 
8 

'•' - : "' 7 ;r - ; '' 
7 


| 84 - 97.75| 
i 89 - 97.751 
| 94 - 97.75J 
| 99 - 97.75J 
¡104 - 97.75J 
¡109 - 97.75J 


41.25 
.61.25 - 

30.00 

10.00 

-43.75 

; 78.75 


b 

2/|x,;- x\ = 265 

D.M. = 265/40 
■ -^:$6.63 ; " 


Total 


40 > 




265.00 
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debe preferirse a la desviación de la mediana como medida de dispersión por la misma 
razón. Cuando los datos se agrupan, se obtiene el valor aproximado de la desviación 
de la mediana al emplear la ecuación (1 . 12) y sustituir la mediana por la media. Las 
desviaciones de las medianas para las observaciones de los ejemplos 1 . 1 y 1 .2 calcu- 
ladas con el mismo procedimiento que para las desviaciones de las medias, son 6.6 y 
5 060.60 respectivamente. De manera similar el valor aproximado de la desviación 
de la mediana para los datos agrupados del ejemplo 1.1 tiene un valor de 6.575. 

El intervalo en el que se encuentran las observaciones en un conjunto de datos, es 
otra medida de variabilidad. 

Definición 1.8 El recorrido R de las observaciones en un conjunto de datos es la di- 
ferencia entre el valor más grande y el más pequeño del conjunto. 

Por su simplicidad, el recorrido proporciona una rápida indicación de la variabi- 
lidad existente entre las observaciones de un conjunto de datos. Sin embargo, como 
medida de dispersión debe usarse con precaución ya que su valor es una función, 
únicamente, de dos valores extremos pertenecientes al conjunto. Como regla general 
se debe evitar el uso del recorrido como medida de variabilidad, cuando el número 
de observaciones en un conjunto es grande o cuando éste contenga algunas observa- 
ciones cuyo valor sea relativamente grande. Este punto puede ilustrarse consideran- 
do los recorridos de los ejemplos 1.1 y 1.2, que son /?, = 111 - 82 = $29, y R 2 = 
63 855-30 = $63 825, respectivamente. Para el ejemplo 1.1, /?, parece ser una 
medida realista de la variabilidad, debido principalmente a que el conjunto no con- 
tiene ninguna cuota que se salga de la linea relativa a las otras. Sin embargo, para el 
ejemplo 1 .2, R 2 no es una medida realista de la variabilidad, dado que los valores de 
$30 y $63 855 son, aparentemente, valores extremos con respecto a los ingresos ne- 
tos por cosecha de gran parte de los otros estados. Para muchos problemas tiene una 
mayor utilidad determinar el recorrido entre dos valores cuantiles que entre dos va- 
lores extremos. 

Definición 1.9 La diferencia entre los percentiles 75avo y 25avo recibe ei nombre 
de recorrido intercuantil. 

Definición 1.10 La diferencia entre los percentiles 90avo y décimo recibe el nombre 
de recorrido interdecil. 

El recorrido intercuantil refleja la variabilidad de las observaciones comprendi- 
das entre los percentiles 25 y 75 en el conjunto de datos, y el recorrido interdecil indi- 
ca la dispersión de las observaciones con valores entre los percentiles 90 y 10. El re- 
sultado es que ni el rango intercuantil ni el interdecil son afectados por la presencia 
de observaciones relativamente grandes. \ 

Para datos agrupados se pueden aproximar los recorridos intercuantil e interde- 
¿h á partir de la distribución de frecuencia relativa acumulada. Para ilustrar, 
empleando la figura 1.1, los valores aproximados de. los rangos intercuantil e inter- 
decil para el ejemplo 1.1 son <7o,75 - <? .25 = 104.50-92 = $12.50, y <7 ., ~ <7o.i = 
109.5 - 87.5 = $22, respectivamente. Para un conjunto de datos no agrupados 
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que contenga n observaciones, los percentiles 75avo y 25avo son los valores de las 
observaciones cuyos números de posición en la secuencia ordenada de observa- 
ciones, corresponden a 0.75« + 0.5 y 0.25« + 0.5, respectivamente. De manera si- 
milar, los percentiles 90 y décimo corresponden a los valores de las observaciones cu- 
yos números de posición, con respecto a la secuencia ordenada, son 0.9/r + 0.5 y 
O.l/i + 0.5 respectivamente. Para los datos del ejemplo 1.2, los percentiles 25 y 75 son 
los valores de las observaciones 13 y 38 correspondientes a la secuencia ordenada de las 
observaciones, respectivamente. De esta manera, q^ = $4 973, q 01f = $10 207, 
siendo el recorrido intercuantil de $5 234. Dado que para n = 50 O.l/i + 0.5 = 
5.5, el décimo percentil es el promedio de los valores 5 y 6, de las observaciones 
ordenadas, o %.i = 2 840.5. Similarmente el percentil 90avo es el promedio de las 
observaciones 45 y 46 correspondientes a la secuencia ordenada, o q {)9 = 16 376.5. 
Por lo tanto, el recorrido interdecil para los datos del ejemplo 1.1 es de $13 536. 

A lo largo de todo el capítulo se han empleado los ejemplos 1.1 y 1.2 para ilustrar 
varios conceptos. Es importante notar que presentan situaciones contrastantes. El 
primero presenta un conjunto de datos en el que las observaciones se encuentran 
distribuidas de manera uniforme a lo largo del recorrido completo de valores, sin 
ninguna observación relativamente grande. El último ejemplifica una situación en la 
que existe un agregado muy denso de observaciones y algunos valores relativamente 
grandes, especialmente en el extremo superior. La diferencia innata entre estos dos 
ejemplos, puede discernirse a través de una comparación de las medidas descriptivas 
numéricas que se han calculado para cada uno de ellos y que aparecen en la ta- 
bla 1.11. 

Nótese que en el ejemplo 1.1 los valores de las medidas de tendencia central se 
encuentran muy cercanos entre sí, mientras que para el ejemplo 1 .2 se encuentran se- 
paradas entre sí de manera considerable. Se puede decir lo mismo de las desviaciones 
estándar, media y mediana para los dos ejemplos. En el ejemplo primero los valores de 
las desviaciones de la media y de la mediana se encuentran muy próximos al valor 
de la desviación estándar, mientras que en el ejemplo 1 .2 tienen un valor casi similar 
a la mitad de la desviación estándar. Además, en el ejemplo 1 .1 el recorrido interde- 
cil constituye una proporción relativamente grande del recorrido (22/29 = 0.76), 



TABLA 1.11 Resumen de las medidas numéricas descriptivas para los ejemplos 1.1 y 1.2 



Medida 




Ejemplo 


1.1 




Ejemplo 1.2 


numérica 


Datos no agrupados 


Datos agrupados 


Datos no agrupados 


Media 


97.90 






97.75 


9 811.34 


Mediana 


98.50 






98.25 


7 642.00 


Moda 


95.00 






96.50 


— 


Varianza 


61.0154 






61.2179 


105 865 196.80 


Desviación estándar 


7.81 






7.82' 


10 289.08 


Desviación media 


6.61 






6.63 


5 561.03 


Desviación mediana 


6.60 






6.575 


5 060.60 


Recorrido 


29.00 






— 


63 825.00 


Recorrido intercuantil 


— 






12.50 


5 234.00 


Recorrido interdecil 


— 






22.00 


13 536.00 
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y en el ejemplo 1 .2 esta medida es una porción relativamente pequeña de este último 
(13 536/63 825 = 0.21). 

Estas comparaciones aclaran lo que las medidas numéricas y las distribuciones de 
frecuencia pueden hacer para descubrir la naturaleza inherente de un conjunto 
de datos. Sin embargo, el usuario debe tener cuidado tanto en la elección como en la in- 
terpretación de estas medidas. A pesar de que la media y la desviación estándar se han 
empleado de manera extensa como medidas de tendencia central y dispersión respec- 
tivamente, aunque tienen propiedades teóricas muy atractivas existen problemas 
— como el ejemplo 1.2 — para los cuales no pueden ser las medidas más deseables. En 
general, y por ende, las medidas más deseables para conjuntos de datos relacionados 
con mediciones físicas como lecturas de instrumentos, especificaciones de partes, pe- 
sos, etc., son la medida y la desviación estándar o la desviación de la mediana. Para 
conjuntos de datos relacionados con ingresos y otras informaciones de tipo econó- 
mico y financiero, las mejores elecciones para las medidas de tendencia central y dis- 
persión son la mediana y la desviación de la mediana respectivamente. 

Como nota final, las agencias del gobierno y muchos servicios de información 
proporcionan información en tablas de frecuencia que no sólo contienen clases de 
amplitud diferente sino también clases abiertas como "ingreso anual de $500 000 
o más" con el propósito de tener mayor cobertura de los datos. Estas clases se presen- 
tan en los extremos del conjunto y no se especifican las clases terminales. Como re- 
sultado, el punto medio de las clases abiertas no se encuentra definido y no pueden 
calcularse valores aproximados para algunas medidas numéricas como la media, va- 
rianza, desviación estándar y desviación media, a menos que se encuentren dispo- 
nibles algunas observaciones individuales contenidas en la clase o que sea conocido 
su promedio artimético. 
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Ejercicios 

1.1. Los siguientes datos son los lapsos, en minutos, necesarios para que 50 clientes de un 
banco comercial, lleven a cabo una transacción bancada: 
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1.2 


7.8 


0.8 
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6.8 


5.2 


6.3 


7.6 


1.4 


0.5 


1.4 
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a) Construir una distribución de frecuencia relativa. 

b) Construir una distribución de frecuencia relativa acumulada. 

c) Con los resultados de la parte b, determine los recorridos intercuantil e interdecil. 

d) Con los datos agrupados, calcule la media, mediana, moda, desviación estándar, 
desviación media y desviación mediana. 

e) Verificar los resultados de la parte d calculando las mismas medidas para los datos no 
agrupados. 

1 .2. La demanda diaria, en unidades de un producto, durante 30 días de trabajo es: 
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49 
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48 
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52 
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44 


44 


56 



a) Construir las distribuciones de frecuencia relativa y de frecuencia acumulada. 

b) Con la distribución acumulada, determine los tres cuantiles. 

c) Calcular la media, mediana, moda, desviación estándar, desviación media y des- 
viación mediana, empleando tanto los datos agrupados como los no agrupados, y 
compare los dos conjuntos de resultados. 

d) Comentar la naturaleza de esta distribución de frecuencia, cuando se compara con la 
del ejercicio 1.1. 

1.3. Aquí se presentan tres conjuntos de datos: 

1,2,3,4,5,6; 
1, 1, 1,6, 6, 6; 
-13, 2, 3, 4, 5, 20. 

Calcular la media y la varianza para cada conjunto de datos. ¿Qué se puede concluir? 

1.4. La siguiente tabla muestra las ventas, en miles de dólares, de 23 vendedores de una 
compañía de computadoras. 



40.2 


29.3 


35.6 


88.2 


42.9 


26.9 


28.7 


99.8 


35.6 


37.8 


44.2 


32.3 


55.2 


50.6 


25.4 


31.7 


36.8 


45.2 


25.1 


39.7 



a) Calcular la media, mediana, desviación estándar, desviación mediana, recorrido in- 
tercuantil y recorrido interdecil. 

b) ¿Qué medidas de tendencia central y dispersión se elegirian y por qué? 

1.5. Con los datos del ejercicio 1.2, sea x, la demanda del i-ésimo día para i = 1, 2 ... 30. 
I Transformar los datos por medio de la relación 

! ■ . . 

! .■.■..•■■■•■■ :■'■'•'-. !j , -. - - ■■■. x,- 51.5 :•>■'■ 

j -•■"'"•■ 14.17 ■■■•■'■■' ' 
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a) Construir una distribución de frecuencia relativa para los datos transformados. ¿Ha 
ocurrido algún cambio en la naturaleza de la distribución de frecuencia cuando ésta 
se compara con la del ejercicio 1.2? 

b) Con los datos transformados //, , calcular la media y la desviación estándar; mostrar 
que son iguales a cero y uno respectivamente. 

1.6. Los siguientes datos agrupados representan los pagos por almacenamiento para los 50 más 
grandes detallistas durante el año 1979: 



Límites de estructura de la clase 


Frecuencia 


1. 10-1.86 


4 


1.87-2.63 


14 


2.64-3.40 


11 


3.41-4.17 


9 


4.18-4.94 


7 


4.95-5.71 


1 


5.72-6.48 


2 


6.49-7.25 


2 



a) Graficar la distribución de frecuencia relativa acumulada. 

b) Con los resultados de la parte a), determinar los recorridos intercuantil e interdecil. 

c) Calcular la media, mediana y moda. 

d) Calcular la varianza, desviación estándar, desviación media y desviación mediana. 

1.7. La siguiente información agrupada representa el numero de puntos anotados por equipo 
y por juego en la Liga Nacional de Fútbol durante la temporada de 1973: 

Grupo Frecuencia 



0-3 


27 


4-10 


66 


11-17 


91 


18-24 


70 


25-31 


57 


32-38 


34 


39-45 


16 


46-52 


3 



a) Graficar la distribución de frecuencia relativa. 

b) Calcular la media y la moda. 

c) Calcular la varianza, desviación estándar y desviación media. 

1.8. Se seleccionaron de un proceso de fabricación, aleatoriamente, 20 baterías y se llevó a 
cabo una prueba para determinar la duración de éstas. Los siguientes datos representan 
el tiempo de duración, en horas, para las 20 baterías: 
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61.6 


63.3 



• a) Determinar la media y la mediana. 

\ b) Determinar la desviación estándar, desviación media y desviación mediana. 

| c) Determinar los recorridos intercuantil e interdecil. 



i- 
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APÉNDICE 

Sumatorias y otras notaciones simbólicas 

El uso de la notación simbólica es esencial en estadística. Por ejemplo, para distin- 
guir entre los valores de n observaciones se emplea la notación simbólica x u x 2 

x„.Uno de los símbolos más útiles es la letra griega X (sigma) con que se denota la 
suma de términos en una secuencia. De esta manera la suma de jc,, x 2 ..., x n se desig- 
na por 

2 x¡ = x, + x 2 + •■■ + x„, 

y se lee "la suma de las x,, con i variando desde 1 hasta n". La letra / recibe el 
nombre de índice de suma y toma valores enteros sucesivos hasta e incluyendo a n, 
que es el límite superior o el valor más grande de i. Los siguientes son ejemplos del 
uso de 2 

n 

a) 2 x / = *i + x \ + - + xl; 

n 

b) 2 (x¡ - a) = (x, - a) + (x 2 - a) + ■■■ + (x„ - a); 

n 

c) 2 (x, - a) 2 = (x, - a) 2 + (x 2 - a) 2 + - + (x„ - a) 2 ; 

;=l 
n 

d) 2 x¡y¡ = x,y, + x 2 y 2 + — + x„y„ . 
i=\ 

Las siguientes tres propiedades son importantes cuando se emplea el símbolo 2, 
Propiedad 1 . Si c es cualquier constante, entonces 

n n 

2 cx¡ = c 2 x¡. 
1=1 1=1 

Propiedad 2. Si c es cualquier constante, entonces 

n 

2 c = nc. 
Propiedad 3. 

n n n 

Ufo + y*) = 2 * + 2 y.-- 



/= i /= i 
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Las propiedades anteriores pueden verificarse de la siguiente manera: 

n 

1) 2 cx ¡ = ex, + cx 2 + — + cx„ 
= c(x ] + x 2 + ••• •+ .rj 

» 

= <'2 -*/■ 

i= I 

M 

2)Y.c = c + c + — + c 

í=l * v ' 

n términos 

= (1 + 1 + - + l)c 

' . ' 

n términos 
= nc. 

n 

3) 2(*. + y,) = (x, + y,) + Cx 2 + y 2 ) + - + U« + JÜ 

= U, + x 2 + •■■ + x„) + ( v, + y 2 + ••■ + y„) 

n n 

= 2*¡ + 2?.- 
;= i /= i 

El símbolo 2 también se emplea para denotar la suma sobre dos características 
diferentes. Por ejemplo, supóngase que se tiene la función p(x, y) de las variables x y 
y, las que toman únicamente valores enteros. *in particular x toma los valores ente- 
ros de y 1, y y valores 1 , 2 y 3. Entonces la suma de p(x, y) sobre todos los valo- 
res tanto de x como de .y se denota por 

13 

2 2 P(x>y) = MO, 1) + P(0, 2) + p(0, 3) + p(l, 1) + p(l, 2) + p(l, 3). 

Nótese que primero se elige el índice de suma de x igual a cero y entonces se evalúa la 
suma interna para cada uno de los valores del índice de suma de .y. Posteriormente se 
incrementa el índice de suma de ir en uno y se repite el proceso. El procedimiento an- 
terior también se aplica a todas aquellas situaciones en las que se emplean subscritos 
dobles para distinguir entre dos características. Por ejemplo, considere la suma de la 
secuencia x , / = 1,2 ... n,./ = 1,2... m para todos los valores posibles de i y de j. 
Tal suma puede denotarse por 

'" -C [ ' ■"-.'.■ 2 2*./- 
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En particular, si/i = 2ym = 3, entonces 



2 i 



2 2 x :¡ = -^ii + ^12 + -*i.i + -*:i + -v?: + -v :? . 



,= !.,= i 



Otro símbolo últil es la letra griega íl (pi). Esta letra se emplea para indicar el 
producto de los términos de una secuencia. Por ejemplo, dada la secuencia de obser- 
vaciones v,, x 2 x„, el producto de x,, x 2 , ..., x„ se denota por 

n 

l\x¡ = XíXj ...x,„ 
en donde la letra / tiene el mismo propósito que en la suma. 



CAPÍTULO DOS 



Conceptos en probabilidad 



2.1 Introducción 

La probabilidad es un mecanismo por medio del cual pueden estudiarse sucesos alea- 
torios, cuando éstos se comparan con los fenómenos determinísticos. Por ejemplo, 
nadie espera predecir con certidumbre el resultado de un experimento tan simple 
como el lanzamiento de una moneda. Sin embargo, cualquier estudiante de primer 
año de licenciatura en física debe ser capaz de calcular el tiempo que transcurrirá 
para que un objeto, que se deja caer desde una altura conocida, llegue al suelo. 

La probabilidad tiene un papel crucial en la aplicación de la inferencia estadística 
porque una decisión, cuyo fundamento se encuentra en la información contenida en 
una muestra aleatoria, puede estar equivocada. Sin una adecuada comprensión de las 
leyes básicas de la probabilidad, es difícil utilizar la metodología estadística de ma- 
nera efectiva. 

Para ilustrar el uso de la probabilidad en la toma de decisiones, considérese el si- 
guiente ejemplo: una compañía produce un detergente líquido que se envasa en bo- 
tellas de 500 mi, las que son llenadas por una máquina. Debido a que las botellas que 
contienen una cantidad mayor de 500 mi representan una pérdida para la compañía 
y todas aquellas que contienen una cantidad menor constituyen una pérdida para el 
consumidor (lo que puede desencadenar una acción legal en contra de la compañía), 
la compañía realiza todos los esfuerzos necesarios para mantener el volumen neto 
promedio en un nivel de 500 mi. Para mantener un control apropiado se ideó el si- 
guiente esquema de muestreo: se seleccionarán 10 botellas del proceso de llenado, 
cuatro veces durante el transcurso del día y se determinará su contenido neto prome- 
dio. Si éste se encuentra entre 498 y 502 mi, inclusive, el proceso se considerará 
"bajo control"; de otra manera, éste se encontrará "fuera de control". En este caso 
se detendrá d llenado, llevando a cabo todos los esfuerzos necesarios para determi- 
nar la causa, si es que ésta existe, del problema. Con toda seguridad y para cual- 
quiera de las dos situaciones se tienen riesgos. Si el proceso se considera bajo 
control, podría encontrarse fuera de éste, y la compañía puede estar perdiendo el 
producto o sujetándose a una acción legal por parte de las correspondientes oficinas 
del gobierno. Por otro lado si el proceso se considera fuera de control, puede en rea- 
lidad encontrarse bajo control y la compañía estará intentando localizar una falla 
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inexistente. La evaluación de estos riesgos sólo puede hacerse de manera efectiva a 
través del uso de la probabilidad. 

En las tres secciones siguientes se examinarán las interpretaciones clásica, de fre- 
cuencia relativa y subjetiva, de la probabilidad. Las dos primeras son muy similares 
debido a que se basan en la repetición de experimentos realizados bajo las mismas 
condiciones, como el lanzamiento de una moneda. La interpretación subjetiva o per- 
sonal de la probabilidad representa una medida del grado de creencia con respecto a 
una proposición, como podría ser si la creación de una nueva empresa tendrá éxito. 
En la sección 2.5 se establecen algunos axiomas y, con base en éstos, se define for- 
malmente la probabilidad. El desarrollo axiomático incluye las tres interpretaciones 
de la probabilidad. 

2.2 La definición clásica de probabilidad 

El desarrollo inicial de la probabilidad se asocia con los juegos de azar. Por ejemplo, 
considérense dos dados que se distingan y que no están cargados; el interés recae en 
los números que aparecen cuando se tiran los dados. En la tabla 2.2 se dan los 36 po- 
sibles pares de números. 

Una característica clave de este ejemplo, así como también de muchos otros rela- 
cionados con los juegos de azar, es que los 36 resultados son mutuamente excluyen- 
tes debido a que no puede aparecer más de un par en forma simultánea. Los 36 resul- 
tados son igualmente probables puesto que sus frecuencias son prácticamente las 
mismas, si se supone que los dados no están cargados y que el experimento se lleva a 
cabo un número suficientemente grande de veces. Nótese que de los 36 resultados 
posibles, seis dan una suma de siete, cinco dan una suma de ocho, etc. Por )o tanto, 
puede pensarse de manera intuitiva que la probabilidad de obtener un par de núme- 
ros cuya suma sea siete es la proporción de resultados que suman siete con respecto 
al número total, en este caso 6/36. Es importante que el lector comprenda que la 
proporción 6/36 se obtiene únicamente después de que el experimento se realiza un 
número grande de veces, es decir, después de efectuar el experimento muchas veces 
se observará que, alrededor de la sexta parte de éste, la suma de los números que 
aparecen es igual a siete. La proporción 6/36 no significa que en seis tiradas, forzo- 
samente una dará como resultado un siete. Para situaciones de este tipo es apropiada 
la siguiente definición de probabilidad. 

Definición 2.1 Si un experimento que está sujeto al azar, resulta de n formas igual- 
mente probables y mutuamente excluyentes, y si n A de estos resultados tienen un 
atributo A, la probabilidad de A es la proporción de n A con respecto a n. 

TABLA 2.1 Posibles resultados que aparecen cuando se lanzan dos dados 
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2.3 Definición de probabilidad como frecuencia relativa 

En muchas situaciones prácticas, los posibles resultados de un experimento no son 
igualmente probables. Por ejemplo, en una fábrica las oportunidades de observar un 
artículo defectuoso normalmente será mucho más rara que observar un artículo 
bueno. En este caso, no es correcto estimar la probabilidad de encontrar un artículo 
defectuoso mediante el empleo de la definición clásica. En lugar de ésta, en muchas 
ocasiones se emplea la interpretación de ía probabilidad como una frecuencia rela- 
tiva. 

La interpretación de una frecuencia relativa descansa en la idea de que un experi- 
mento se efectúa y se repite muchas veces, y prácticamente bajo las mismas condi- 
ciones. Cada vez que un experimento se lleva a cabo, se observa un resultado. Éste es 
impredecible dada la naturaleza aleatoria del experimento, la probabilidad de la pre- 
sencia de cierto atributo se aproxima por la frecuencia relativa de los resultados que 
posee dicho atributo. Conforme aumenta la repetición del experimento, la frecuen- 
cia relativa de los resultados favorables se aproxima al verdadero valor de la proba- 
bilidad para ese atributo. Por ejemplo: supóngase que se desea determinar la pro- 
porción de artículos defectuosos en un proceso de fabricación. Para llevar a cabo lo 
anterior, se muestra un determinado número de artículos; cada observación consti- 
tuye un experimento. Los resultados pueden clasificarse como defectuosos o no defec- 
tuosos. Si el proceso de fabricación es estable, y asegura así las condiciones unifor- 
mes, al aumentar el número de artículos muestreados, la frecuencia relativa de 
artículos defectuosos con respecto al número de unidades muestreadas se aproxima- 
rá cada vez más a la verdadera proporción de artículos defectuosos. 

Para ilustrar la interpretación de la probabilidad como frecuencia relativa se si- 
muló en una computadora un proceso de muestreo de n unidades, suponiendo que el 
proceso de fabricación producía un 5% de artículos defectuosos. Para cada n se ob- 
servó el número de unidades defectuosas; los resultados se dan en la tabla 2.2 para 
valores de n entre 20 y 10 000. A partir de esto es razonable concluir que la frecuen- 
cia relativa tiende a un valor verdadero de 0.0S conforme n crece. De esta manera, se 
sugiere la siguiente definición de la probabilidad como frecuencia relativa: 



TABLA 2.2. Resultados de un experimento simulado en computadora 

Número de unidades Número de unidades ' Frecuencia 

muestreadas (n) defectuosas observadas relativa 

20 2 0.10 

50 \ í 0.06 

100 4 \ 0.04 

200 12 0.Q6 

.500- :::»'■ :..<•.:■. 4- : -.■ ■: 28 ' '"'■■- ■.•'.■-.' 0.056 

1 000 i; : 54 u "( 0.054 ..-.. 

2 000 . 97 ; 0.0485 
5 000 ' 244 ' 0.0488 

10 000 " ' >v 504 0.0504 
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Definición 2.2 Si un experimento se repite n veces bajo las mismas condiciones y 
n B de los resultados son favorables a un atributo B, el limite de n B jn conforme n se 
vuelve grande, se define como la probabilidad del atributo B. 

2.4 Interpretación subjetiva de la probabilidad 

La repetición de un experimento bajo las mismas condiciones es la base para las in- 
terpretaciones clásica y de frecuencia relativa de la probabilidad. Sin embargo, 
muchos fenómenos no se prestan para repetición, pero a pesar de esto requieren 
de una noción de probabilidad. Por ejemplo la compañía que aseguró los Juegos 
Olímpicos de 1980 tuvo que determinar, apriori, los riesgos de que los juegos no se 
efectuasen de la manera en que se habían planeado. O cuando se aseguran contra 
robo o daño esculturas y pinturas cuyo valor es muy alto, las compañías aseguradoras 
deben tener idea de los riesgos adquiridos para fijar de manera adecuada, el precio 
del seguro. En ninguno de estos ejemplos puede concebirse un experimento suscep- 
tible de llevarse a cabo bajo condiciones similares. Por otra parte, muchas de las 
afirmaciones que suelen formularse las personas de algún modo implican probabili- 
dad. Por ejemplo, cuando se dice "probablemente el embarque llegará mañana", o 
cuando un corredor de bolsa asesora a un cliente sobre la posible alza de una acción, 
se está sugiriendo alguna idea de la probabilidad de ocurrencia de las afirmaciones 
anteriores. 

Para los ejemplos anteriores, la interpretación de la probabilidad no puede tener 
su fundamento en la frecuencia de ocurrencia. La probabilidad se interpreta como el 
grado de creencia o de convicción con respecto a la ocurrencia de una afirmación. En 
este contexto, la probabilidad representa un juicio personal acerca de un fenómeno 
impredecible. Esta interpretación de la probabilidad se conoce como subjetiva o per- 
sonal. 

Es importante hacer hincapié en que la probabilidad subjetiva también puede 
aplicarse a experimentos repetitivos. Por ejemplo, un jugador de blackjack puede, en 
un momento dado, decidir tomar otra carta y hacer caso omiso de su experiencia 
previa, debido a que cree que esto aumentará sus oportunidades de ganar la mano. 
El capitán de un equipo de fútbol puede pedir "cara" cuando la moneda se lance al 
aire, debido a que esa es su creencia con respecto al resultado de arrojarla. Con base 
en tales aplicaciones, la probabilidad subjetiva es considerada por muchos como 
más general que las otras dos interpretaciones. 

Para ilustrar la traslación de un grado de creencia en probabilidad, considere la 
siguiente situación: se pregunta a dos ingenieros petroleros, A y B, su opinión acerca 
de la posibilidad de descubrir petróleo en un determinado sitio. La respuesta de A es 
que él está seguro, en un 807o, de que se encontrará petróleo mientras que B lo está 
en un ?0%.* El porcentaje dado por los ingenieros es una medida de la creencia de 
éstos, con respecto al descubrimiento de petróleo. De esta manera se pueden asignar 
distintas medidas de creencia a la misma proposición. Pero ¿qué significado tienen 
realmente el 80% y 7%? La interpretación común es la siguiente. El ingeniero A pien- 

* Por implicación, A y B también están diciendo que se encuentran seguros, en un 20% y 30%, respecti- 
vamente, de que no será descubierto el petróleo. 
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sa apostar ocho a dos (por ejemplo $8 contra $2 o cualquier otra cantidad de dólares 
que se encuentre en la misma proporción) a que el petróleo será descubierto en ese si- 
tio. De manera similar, B cree que es mejor apostar siete a tres (es decir $7 contra $3) 
para el mismo resultado. De esta manera, las probabilidades subjetivas de A y B se 
definen como las proporciones 8/(8 + 2) y 7/(7 + 3) respectivamente. En general si 
las apuestas en favor de una afirmación son de c a d, la probabilidad de ésta es 
c/{c + d). 

2.5 Desarrollo axiomático de la probabilidad 

Para formalizar la definición de probabilidad, a través de un conjunto de axiomas, 
se repasarán brevemente los conceptos básicos de la teoría de conjuntos (o eventos), 
sobre los cuales se fundamenta la definición formal de probabilidad. Esta definición 
es tan general que permite incorporar las distintas interpretaciones de la probabili- 
dad, mencionadas anteriormente. 

La colección de todos los posibles resultados de un experimento aleatorio es im- 
portante en la definición de la probabilidad. Para definir esta colección considérense 
los siguientes experimentos: el número de reservaciones no canceladas para un 
vuelo, el número de llegadas a un servicio o la duración de un determinado compo- 
nente. Todos son ejemplos de fenómenos impredecibles con un determinado número 
de posibles resultados. El número de reservaciones no canceladas puede ser cual- 
quier entero positivo no mayor que el número de asientos del avión; el número de 
llegadas puede ser, teóricamente, cualquier entero positivo sin ningún límite, y la du- 
ración de un componente puede ser cualquier número real positivo. Lo anterior 
lleva, de manera inmediata, a la siguiente definición: 

Definición 2.3 El conjunto de todos los posibles resultados de un experimento 
aleatorio recibe el nombre de espacio muestra!. 

El conjunto de todos los posibles resultados puede ser finito, infinito numerable 
o infinito no numerable. Por ejemolo, el número de reservaciones sin cancelar cons- 
tituye un espacio muestral finito, dado que este número nunca excederá la capacidad 
del avión, que es finita. El número de llegadas al servicio constituye un espacio 
muestral infinito numerable, dado que es posible colocar ios resultados en una co- 
rrespondencia uno a uno con los enteros positivos, que constituyen un conjunto 
infinito pero numerable. La duración de una componente constituye un espacio 
muestral infinito innumerable, dado que esta puede ser cualquier número real positi- 
vo. En este momento, es conveniente dar las siguientes definiciones. 

Definición 2.4 Se dice que un espacio muestral es discreto si su resultado puede 
ponerse en una correspondencia uno á uno con el conjunto dé los enteros positivos. 

Definición 2.5 -<Se dice que un espacio muestral es continuo si sus resultados consis- v 
ten de un intervalo de números reales. - ^ 

Con respecto a los resultados de un espacio muestral, se puede estar particular- 
mente interesado en un subconjunto de éstos. Por ejemplo, un gerente de cierta linea 
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aérea desea saber si el número de reservaciones sin cancelar es menor que cinco, o 
bien un comprador de baterías desea saber si éstas tendrán una operación normal 
mayor de 40 horas. De esta manera, se tiene la siguiente definición: 

Definición 2.6 Un evento del espacio muestral es un grupo de resultados conteni- 
dos en éste, cuyos miembros tienen una característica común. 

Por característica común debe entenderse que únicamente un grupo de resulta- 
dos en particular satisface la característica y los restantes, contenidos en el espacio 
muestral, no. Se dice que ha ocurrido un evento si los resultados del experimento 
aleatorio incluyen a algunos de los que definen al evento. En este contexto, el espa- 
cio muestral, evento en sí mismo, puede entenderse como un evento seguro, puesto 
que se tiene un 100% de certidumbre de que ocurrirá un resultado del espacio 
muestral cuando el experimento se lleve a cabo. Para completar se dan las siguientes 
definiciones: 

Definición 2.7 El evento que contiene a ningún resultado del espacio muestral re- 
cibe el nombre de evento nulo o vacío. 

Deberán recordarse algunas definiciones de la teoría de eventos. Sean £, y E 2 
cualesquiera dos eventos que se encuentren en un espacio muestral dado denotado 
por S. 

Definición 2.8 El evento formado por todos los posibles resultados en E,oE 2 o en 
ambos, recibe el nombre de la unión de £, y £ ? y se denota por E\ U E 2 . 

Definición 2.9 El evento formado por todos los resultados comunes tanto a £, 
como a E 2 recibe el nombre de intersección de £i y E 2 y se denota por £, n £ 2 . 

Definición 2.10 Se dice que los eventos E, y E 2 son mutuamente excluyentes o dis- 
juntos si no tienen resultados en común; en otras palabras E, n E 2 = s evento 
vacío. 

Definición 2.11 Si cualquier resultado de E 2 también es un resultado de E, , se dice 
que el evento E 2 está contenido en £, , y se denota por E 2 C £| . 

Definición 2.12 El complemento de un evento E con respecto al espacio muestral 
S, es aquelque contiene a todos los resultados dé S que no se encuentran en E, y se de- 
nota por E. 

Las definiciones anteriores pueden demostrarse de mañera gráfica mediante el 
uso de los diagramas de Venn, como se muestra en la figura 2.1 . 

Como ejemplo, considérese el experimento de lanzar un dado; el espacio 
muestral es S (1 , 2, 3, 4, 5, 6). Se definen Ios-eventos E, = (2, 4¿'' ! 6) ; , s E 2 1,r = : (1 -, 3), 
y £ 3 = (2, 4). Es fácil verificar que £, U E 2 = (1,2, 3, 4, 6), £,n £ 3 =_{2,:- 
4), £j D E 2 = 0, £3 se encuentra completamente contenido en £, y £ 2 = 
(2,4,5,6).-' •■• - ■•'■-■■■'••••• ■'■*■ -;-■■■• •.= : '.;-i'-- o-...-. 
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FIGURA 2.1 Diagramas de Venn que ilustran a) la unión de dos eventos; b) la intersección 
de dos eventos; c) eventos mutuamente excluyentes; d) un evento contenido en otro, y e) un 
evento ;y su complemento 



La probabilidad es un número real que mide la posibilidad de que ocurra un re- 
sultado del espacio muestral, cuando el experimento se lleve a cabo. Por lo tanto, la 
probabilidad de un evento también es un número real que mide la posibilidad colec- 
tiva, de ocurrencia, de los resultados del evento cuando se lleve a efecto el experi- 
mento. A continuación se da la definición axiomática de la probabilidad. 

Definición 2.13 Sean S cualquier espacio muestral y E cualquier evento de éste. Se 
llamará función de probabilidad sobre el espacio muestral S a P{E)si satisface los si- 
guientes axiomas: 

1 . P(E) 2* 

2. P(S) = 1 

3 . Si, para los eventos E,, E 2 , £* 3 , ..., 

E¡ n Ej : = para toda i ± j, entonces 
P(E, UE 2 U -) = /»(£,-) + P(E 2 ) + ••• . 

La razón de estos tres axiomas se convierte en aparente cuando, por ejemplo, se 
recuerda la interpretación de la probabilidad como una frecuencia relativa. Es decir, 
la probabilidad de un evento refleja la proporción de veces en que ocurrirá cuando el 
experimento se repita. Los axiomas también son evidentes para la interpretación 
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subjetiva de la probabilidad, dado que para ésta cualquier grado de creencia se con- 
vierte en una proporción. De ahí que las probabilidades exhiban las características 
de las proporciones, en las que la probabilidad es un número entre cero y uno, y 
dado que es forzoso que ocurra un resultado cuando se lleva a efecto un experimen- 
tó, la probabilidad de S es uno. Además si no hay ningún resultado en común entre 
dos eventos E t y E 2 , la probabilidad de que ocurra E t o E 2 es igual a la proporción de 
veces' en que ocurre E, más la proporción de veces en que ocurra E 2 . 

En seguida se demostrarán algunas de las consecuencias de estos tres axiomas. 

Teorema 2.1 Pi$) = 0. 

Demostración: 

v SU0 = SySn0 = 0. 
Por el axioma 3, 

P(S U 0) - P(S) + />(0); 
pero por el axioma 2, P(S) = 1, y de esta manera />(0) = 0. 

Teorema 2.2 Para cualquier evento E C S, *s P(E) =s 1 . 

Demostración: Por el axioma 1, P(E) 2= 0; de aquí que sólo es necesario pro- 
bar que P(E) *= 1. 

EUE = S y E(1E= 0. 
Por los axiomas 2 y 3, 

P(El) E) = P(E) + P(E) = P(S) = 1; 
dado que P(E) 5= o, P(E) «1. 

El axioma 3 da la probabilidad de la unión de dos eventos disjuntos. Por otro 
esta porción de la suma de P(A) y P(B). El teorema se reduce al axioma 3 cuando 
la probabilidad de la unión de dos eventos que no son, necesariamente, disjuntos? 
Para dar respuesta a las preguntas anteriores se enuncia el siguiente resultado gene- 
ral, el que usualmente recibe el nombre de regla de adición de probabilidades. 

Teorema 2.3 Sea 5 un espacio muestral que contiene a cualesquiera dos eventos A 
y B; entonces, 

P{A U B) = P(A) + P(B) - P(A n B). 

Aun cuando no se pretende dar aquí una demostración formal del teorema, éste 
es intuitivamente razonable. P(A) y P(B) reflejan el número de veces en que ocurri- 
rán los resultados de A y B, respectivamente. Sin embargo, y teniendo en cuenta lo 
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anterior, los resultados comunes serán contados dos veces con la necesidad de restar 
esta porción de la suma de P(A) y P{B). El teorema se reduce al axioma 3 cuando 
los eventos son disjuntos. ■-: , 

Ejemplo 2.1 Ün sistema contiene dos componentes A y B, y se conecta de ma- 
nera que este funciona si cualesquiera de las componentes funciona. Se sabe que la 
probabilidad de que A funcione es P(A) = 0.9 y la de B es P(B) = 0.8 y la probabi- 
lidad de ambos es P(A n B) = 0.72. Determinar la probabilidad de que el sistema 
funcione. 

La probabilidad de que el sistema trabaje es igual a la probabilidad de la unión 
entre A y B; de esta manera, 

P{A UB) = P(A) + P(B) - P(A n B) 
= 0.9 + 0.8 - 0.72 = 0.98. 



2.6 Probabilidades conjunta, marginal y condicional 

En esta sección se examinan los conceptos de probabilidad conjunta, marginal y 
condicional, y se desarrolla la ley de multiplicación de probabilidades. Considérese un 
experimento en el que se elige aleatoriamente una persona adulta que viva en una 
ciudad con n personas adultas, y se anotan sus características con respecto a su hábi- 
tos de fumador y su sexo. Sea el espacio muestra] la población de adultos de la 
ciudad, que se divide en los siguientes eventos disjuntos: fumador A, y no fumador 
A 2 , hombre B, y mujer B 2 . Los eventos en S pueden representarse como se muestra 
en la tabla 2.3. 

Como ejemplo, nótese que n u de los n adultos son hombres que fuman, por lo 
que son poseedores de los atributos A t y 5, . Supóngase que se desea determinar la 
probabilidad de ocurrencia simultánea de los eventos A , y B 2 . Mediante el empleo de 
la interpretación de frecuencia relativa, puede argumentarse que, dado que exacta- 
mente n J2 de los n adultos poseen ambos atributos, A, y B 2 , la probabilidad es /i 12 /«. 
Esta última recibe el nombre de probabilidad conjunta puesto que se insiste en la 
probabilidad de resultados comunes a ambos eventos A¡ y B 2 . Por lo tanto la proba- 
bilidad de los eventos A¡ y Bj está dada por 

PÍA, n Bj) = n¡j/n. 



TABLA 2.3 Clasificación de n adultos mediante su sexo y hábitos de fumadores 



A, 
A, 



"ll 


«12 


"21 


«22 
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Supóngase que ahora el interés recae en determinar la probabilidad' A,,, sin consi- 
derar cualquier otro evento B¡ del espacio muestral S. Para especificar, supóngase 
qué se necesita la probabilidad del evento A 2 . Haciendo uso de nuevo de la interpre- 
tación de frecuencia relativa, el número total de personas no fumadoras (A 2 ) es n 2i 
+ rt 22 ; de esta manera se tiene 

PÍA 2 ) = (« 2I + n) 2 )/n. 

Este tipo de probabilidad se conoce como marginal porque para determinarla se ig- 
noran una o mas características del espacio muestral. De lo anterior se sigue que 



pero dado que 



PÍA,) = ¿ n,j/n, 
PÍA, n Bj) = n^n, 

2 

PÍA,) = 2 PÍA, n Bj). 

7=1 

En otras palabras, la probabilidad marginal de un evento A, es igual a la suma de las 
probabilidades conjuntas de A¡ y Bj, donde la suma se efectúa sobre todos los even- 
tos Bj. De manera similar la probabilidad marginal de B¡ está dada por 

2 

PíBj) = 2 pía, n Bj). 

i= I 

En este punto ya debe ser obvia la extensión para incluir más de dos eventos disjuntos. 
Finalmente, supóngase que el interés recae en determinar la probabilidad de un 
evento A¡, dado que ha ocurrido el evento Bj. Por ejemplo, regresando a la tabla 
2. 3, supóngase que se ha elegido aleatoriamente una mujer adulta. ÍB 2 ) Ahora bien, 
¿cuál es la probabilidad de que fume? Una vez más, el argumento descansa sobre la 
interpretación de frecuencia relativa. Sin embargo, una vez que el evento "mujer" 
ha ocurrido, éste reemplaza a S como el espacio muestral de interés. Por lo tanto, la 
probabilidad de tener un fumador ÍA t ) es el número de mujeres que fuman (/; i: ) 
entre el número total de estas (/j l2 + « 22 ).Por lo tanto 

mi|£ 2 ) = «12/(1 1* + n 12 ), 

donde la barra vertical se lee como "dado que" y separa al evento A , , cuya probabi- 
lidad está condicionada a la previa ocurrencia del evento B 2 - Ésta recibe el nombre 
de probabilidad condicional de A , dada la ocurrencia de B 2 . En general, se tiene que 

2 

P(A]lBj) = n ¡ j/'Zn (i , (2.1) 
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y por simetría, - ■■ v\ ■,.;.-;;-: n-tS*x. ■■ ■ ^ ■•, •■■••,■ ■■■\.>;'^ ),■':, --^' •(:- 

?/ .-..■•(2.2) 



f,K) = #¡¿2; n¡¿. x, . 
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Al dividir el numerador y denominador del miembro derecho de (2.1) por n, se tiene 



uto) = -^ 



pero 



por lo tanto 



P(A, n 5,) = /i w //i 

2 



AAM) = ^£p. W>0, (2.3) 



y de manera equivalente 

P{B¿A.) = P(A ' f !^ ) , m,)>0. (2.4) 

Para definir las probabilidades conjunta, marginal y condicional se ha empleado 
un ejemplo específico en el que el espacio muestral contiene únicamente un número 
finito de resultados. Sin embargo, las definiciones dadas aquí son completamente 
generales y pueden extenderse para incluir cualquier espacio muestral ya sea discreto 
o continuo. Con base en lo anterior se define de la siguiente manera. 

Definición 2.14 Sean A y B cualesquiera dos eventos que se encuentran en un espa- 
cio muestral S de manera tal que P(B) > 0. La probabilidad condicional de A al 
ocurrir el evento B, es el cociente de la probabilidad conjunto de A y B con respecto 
a la probabilidad marginal de B; de esta manera se tiene 

P{A\B) = PiA Jl B \ P(B)>0. (2.5) 

r\ts) 

La relación entre (2.5) puede escribirse como un producto, lo que da como resul- 
tado la regla de multiplicación de probabilidades, dada por 

P(A n B) = P(B)P(A\B). (2.6) 
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Por simetría, la probabilidad condicional de B dada la ocurrencia de /l, es "V. r , 

'■'■'• ■■■■■-- wi^.^»^^--^ 

De esta manera se tiene ' > 

PG4 n j?> = p(/i)P(B|A) 

que es otra versión de la regla de multiplicación, la que implica que 

P(A)P(B\A) = P(BJP(A\B). (2.7) 

La definición 2.14 puede extenderse para incluir cualquier número de eventos 
que se encuentren en el espacio muestra!. Por ejemplo, puede demostrarse que para 
tres eventos A, B y C 

p ÍA\Bnc) = P{A p( 2^\ P(B<1C)>0 (2.8) 



P(AnB\C) = PiAn p *^ C \ P(C)>0. (2.9) 

Los siguientes ejemplos ilustrarán los conceptos presentados en esta sección. 

Ejemplo 2.2 A los habitantes de una gran ciudad se les hizo una encuesta con el 
propósito de determinar el número de lectores de Time y Newsweek. Los resultados 
de la encuesta fueron los siguientes: 20% de los habitantes leen el Time, el 16"% lee el 
Newsweek y un 17o lee ambos semanarios. Si se selecciona al azar a un lector de 
Time, ¿cuál es la probabilidad de que también lea el Newsweek? 

Sean A y B los eventos que representan el número de lectores del Time y News- 
week respectivamente; dado que P(A) = 0.2, P(B) = 0.16 y P(A D B) = 0.01, 

P(B|A) = 0.01/0.2 = 0.05. 

Por otra parte, también puede determinarse la probabilidad de que un lector del 
Newsweek lea también el Time; esto es 

P{A\B) = 0.01/0.16 = 0.0625, 

y se verifica la relación P(A)P{B\A) = P(B)P(A\B), o (0.2)(0.05) (0.16)(0.0625). 

Ejemplo 2.3 Muchas instituciones bancadas emplean modelos computarizados de 
crédito con el propósito de dar un determinado puntaje a todas las solicitudes 
de préstamo. Este puntaje se emplea como una ayuda para decidir cuándo se otorga 
el préstamo. Supóngase que el 3% de todos los préstamos que se otorgan presentan 
problemas por incumplimiento de pago y que los modelos de crédito son precisos en 
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un 80% al predecir menos créditos. Si el 85% de todas las solicitudes reciben pun- 
tuaciones favorables por los modelos computarizados y se les otorga el préstamo, 
determinar la probabilidad de que una solicitud que recibe una puntuación favo- 
rable y a la que se le otorga el préstamo, no presente ningún problema para el pago 
de éste. 

Sea A el evento incumplimiento de pago y B la puntuación favorable. Del 
enunciado del problema se tiene que PÍA) = 0.03, P(B) = 0.85 y P{B\A) = 0.8, en 
donde A es el complemento de A, es decir, el evento cumplimiento de pago. Lo que 
se busca es la probabilidad condicional de que no exista ningún problema en el j>ago 
del préstamo, dado que la solicitud obtuvo una puntuación favorable, o P{A\B). 
Usando la relación (2.7), se tiene 

P(B)P(A\B) = P(A)P(B\A), 
o 

mm __ Pjtgm 

y dado que P(A) = 0.97, la probabilidad deseada es P(A\B) = 0.9129. 

Ejemplo 2.4 Una planta recibe reguladores de voltaje de dos diferentes proveedo- 
res, B¡ y B 2 ; el 75% de los reguladores se compra a B, y el resto a B 2 . El porcentaje 
de reguladores defectuosos que se reciben de 5, es 8% y el de B 2 es 10%. Determinar 
la probabilidad de que funcione un regulador de voltaje de acuerdo con las especifi- 
caciones (es decir, el regulador no está defectuoso). 

Sea A el evento el regulador de voltaje es no defectuoso. Es claro que ningún re- 
gulador de voltaje puede ser vendido tanto por B, como por B 2 ', por lo tanto fi, y B 2 
son disjuntos. Esto da como resultado 

P(A) = P(A n B¡) + P(A n B 2 ), 
pero 

P(AnB,) = P(B S )P(A\B,) 



P{A D B 2 ) = P{B 2 )P(A\B 2 ), 

en donde se conocen P{B¡) = 0.75, P(B 2 ) = 0.25, P{A\B t ) = 0.92, y P(A\B 2 ) = 
0.9; sustituyendo 

P(A) = P(B,)P(A\B S ) + P(B 2 )P{A\B 2 ) 

= (0.75X0.92) + (0.25X0.90) = 0.915. 

Nótese que en el ejemplo 2.4 se tienen únicamente dos proveedores, B s y B 2 . En 
general, si existen n alternativas disjuntas B x , B 2 ... B a , la probabilidad total de un 

B\, B 2 , ..., B„, 
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resultado f} nal, por ejemplo A, está dada por , 



PW)'= 5/WWl*/)- 



(2.10) 



i» I 



2.7 Eventos estadísticamente independientes 

Al considerar la probabilidad condicional de algún evento A, dada la ocurrencia de 
otro evento B, siempre se implica que las probabilidades de A y B son de alguna ma- 
nera dependientes entre sí. En otras palabras, la información con respecto a la 
ocurrencia de B afectará la probabilidad de A. Supóngase que la ocurrencia de B no 
tiene ningún efecto sobre la probabilidad de A, en el sentido de que la probabilidad 
condicional P{A\B) es igual a la probabilidad marginal P{A), aun a pesar de que ha- 
ya ocurrido el evento B. Esta situación origina un concepto muy importante que se 
conoce como independencia estadística. 

Definición 2.15 Sean A y B dos eventos cualesquiera de un espacio muestral 5. Se 
dice que el evento A es estadísticamente independiente del evento B si P(A\B) = P(A). 



Algunas consecuencias de la definición 2.15 se convierten en evidentes en este 
momento, dado que 



P(A\B) = 



P(A n B) 
P{B) ' 



si A es independiente de B, 



Además, puesto que 



entonces 



P(A\B) = P(A) = 



P(A n B) 



P(B) 

P(A (IB) = P(A)P(B). 
P(A n B) = P(A)P(B\A), 
P(A)P(B) = P{A)P(B\A) 



, P(B) = P(B\A). 

Por lo tanto, puede concluirse que si un evento A es estadísticamente independiente 
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de B, entonces el evento B es independiente de A y se verifican las tres relaciones si- 
guientes: 

2. P(B\A) = P(B), y 

3. P(A HB) = P(A)P(B). 



;;>f.".r.*..-i 
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Con la siguiente definición se extenderá el concepto de independencia estadística. 

Definición 2.16 Los eventos A , , /4 2 . . . A k de un espacio muestral 5 son estadística- 
mente independientes si y sólo si la probabilidad conjunta de cualquier 2, 3 ... k de 
ellos es igual al producto de sus respectivas probabilidades marginales. 

De cía manera, los eventos A, By C son estadísticamente independientes, si y 
sólo si 

I.P(A(1B) = P(A)P(B), 

2. P(A fl C) = P(A)P(C), 

3. P(B n C) = P(B)P(C), y 

4. p(a n fl n o = P(A)/ , (fl)/ , (C) 

Ejemplo 2.5 Un sistema contiene cinco componentes que se encuentran conectadas 
entre sí como se muestra en la figura 2.2, donde las probabilidades indican la seguri- 
dad de que la componente funcione adecuadamente. Si se supone que el funciona- 
miento de una componente en particular es independiente del de las demás, ¿cuál es 
la probabilidad de que el sistema trabaje? 



P{B) = 0.90 P(D) = 0.93 
B) 1 i ( D 



<¿>— 



/>C4) = 0.98 




P(C) = 0.95 



P(E)=0.91 



FIGURA 2.2 Configuración de un sistema con cinco componentes 
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Establecida la suposición de independencia, el sistema puede trabajar si las con!? 
ponentes A y 3 y/o C, y D y/o E lo hacen. De esta manera, la probabilidad de que éí> 
sistema trabaje, P(F), puede expresarse como i ^:íh ^ ^ i 5 .t;^a\{fid ab 

W = ¿W(5 U C)/>(£> U £); - ,.., , , „; ,/ n 

pero nótese que^ P{B U_C) = 1 - P(B)P(C) y P(D U E) = 1 - P(D)P(E),^ 
porque, por ejemplo P(B)P(C) es la probabilidad de que ño trabaje la componente 
B y tampoco la C. Por lo tanto, 

/>(F) = (0.98)(0.995)(0.9979) = 0.973. 



2.8 El teorema de Bayes 

Recuérdese el ejemplo 2.4. Supóngase que cuando se reciben los reguladores de vol- 
taje se almacenan de manera tal que no puede distinguirse el proveedor. Además, su- 
póngase que se desea determinar la probabilidad de que un regulador en particular 
fue vendido por el proveedor B 2 cuando se sabe que funciona de acuerdo con las es- 
pecificaciones. En este caso se busca la probabilidad condicional de B 2 dada la 
ocurrencia del evento /l. Por lo tanto 



pero 



PÍA) ' 
P(B 2 (1A) = P(B 2 )P(A\B 2 ) 
P(B 2 )P(A\B 2 ) 



P(B 2 \A) = 



PÍA) 



asi que, 



WM> - ^|f - 0.2459. 

Se puede generalizar el método empleado para resolver este problema, con el fin 
de originar el teorema de Bayes. 

Teorema 2.4 Si B t , B 2 , . .., B n son n eventos mutuamente excluyentes, de los 
cuales uno debe ocurrir, es decir S" = , P(B¡) = 1 , entonces 

*»»)- . P(B ' )P(A]B ' ) ./-I.» "• CID 

La expresión dada por (2.11) fue desarrollada por el reverendo Thomas Bayes 
(1702-1761) y se conoce como teorema de Bayes. A primera vista no es más que 
una aplicación de las probabilidades condicionales. Sin embargo, ha sido clave en el 
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desarrollo de la inferencia estadística bayesiana en la que se emplea la interpreta- 
ción subjetiva de la probabilidad. Tal como se indicó en el capítulo uno, la inferen- 
cia bayesiana no se tratará con detalle en este libro, Sin embargo, se^considerarán 
algunas cuestiones bayesianas de vez en cuando, de manera que el lector pueda obte- 
ner una mejor perspectiva de la inferencia estadística. Los siguientes son ejemplos del 
análisis bayesiano. , ,. ^ 

Supóngase que un investigador conduce un experimento en el que sabe que el re- 
sultado de interés estará afectado por cualquiera de las n alternativas B x , B 2 ... B n 
que predomine. A pesar de que no está seguro cuál de todas las alternativas predo- 
minará, posee cierta información con base en la cual está dispuesto a formular un 
juicio subjetivo para las probabilidades de ocurrencia de las n alternativas. De esta 
forma, asigna probabilidades P(B t ), P(B 2 ) ... PfBJ para las n alternativas antes de 
obtener cualquier evidencia experimental. Dado que estas probabilidades reflejan el 
juicio o graao de creencia del investigador con respecto a las ocurrencias del?,, B 2 ... 
B„ antes de que éstas se presenten se conocen como pro h ab i,f dades a priori. Con 
ello el investigador obtendrá una evidencia experimental a partir de un conjunto de 
datos que se denota por A, y se observa bajo una alternativa especifica B¡. En este 
momento se pueden calcular las probabilidades condicionales P(A\Bj). Éstas permi- 
tirán la determinación de la probabilidad B¿ dada la evidencia experimental A , me- 
diante el empleo del teorema de Bayes. Las probabilidades condicionales P(Bj\A), j 
= 1, 2, ..., n se conocen como probabilidades a posteriori porque se determinan 
una vez obtenida la evidencia experimental. Por lo tanto, las probabilidades P(Bj\A) 
reflejan el grado de creencia corregido con respecto a las alternativas B x , B 2 , ... B n 
después de obtener los datos experimentales. 

Ejemplo 2.6 Durante los últimos años se ha escrito mucho sobre la posible rela- 
ción entre el fumar y el cáncer pulmonar. Supóngase que en un centro médico, de to- 
dos los fumadores de quienes se sospecha que tenían cáncer pulmonar, el 90% lo tenía 
mientras que únicamente el 5% de los no fumadores lo padecía. Si la proporción de 
fumadores es de 0.4S, ¿cuál es la probabilidad de que un paciente con cáncer pulmo- 
nar, seleccionado al azar, sea fumador? 

Sean B, y B 2 los eventos "el paciente es fumador" y "el paciente es no fumador" 
respectivamente, y sea A el evento "el paciente tiene cáncer pulmonar". B, y B 2 son 
las alternativas que pueden predominar. Se supone que las probabilidades a priori, 
para estas dos alternativas, son 0.45 y 0.55 respectivamente. Si un paciente tiene o 
no cáncer pulmonar puede estar afectado por cualquiera de las dos alternativas que 
predominen y que constituyen la evidencia experimental. Se sabe que P(A\B, ) = 0.9 
y P(A\B 2 ) = 0.05. Se desea determinar la probabilidad a posteriori de selec- 
cionar un fumador, puesto que el paciente tiene cáncer, o P(B¡\A). 

Del teorema de Bayes se tiene 

P(B,)P(A\B,) 



P(B,\A) = 



P(B,)P(A\Bi) + P(B 2 )P(A\B 2 ) 
(0.45X0.9) 



(0.45)(0.9) + (0.55X0.05) 
= 0.9364. 
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La probabilidad de que un paciente con cáncer pulmonar, seleccionado aleato- 
riamente sea fumador, es de 0.9364. ' ■,-íf ,,, :í!'r(,;.|fl^ 

:::■■.-. ;*a73 1 ¡;, y.-n^o i% 5h ssííOíbíiiü»: 
Ejemplo 2. 7 Una compañía estudia la comercialización de un nuevo producto. 
El presidente de la compañía desea que el producto sea superior al de su más cercano 
competidor. Con base en una evaluación preliminar que realizó el personal clave, se 
decide asignar una posibilidad del 50% de que el producto sea superior al ofrecido 
por el competidor, 30<7o de que tenga la misma calidad y un 20% de que sea inferior. 
Un estudio de mercado sobre el producto concluye que éste es superior al del compe- 
tidor. Con base en la experiencia sobre los resultados de las encuestas, se determina 
que si el producto realmente es superior, la probabilidad de que la encuesta alcance 
la misma conclusión es 0.7. Si el producto tiene la misma calidad que el del competi- 
dor, la probabilidad de que la encuesta dé como resultado un producto superior es 
0.4. Si el producto es inferior, la probabilidad de que la encuesta indique un produc- 
to superior es de 0.2. Dado el resultado de la encuesta, ¿cuál es la probabilidad, 
corregida, de obtener un producto superior? 

Este es un ejemplo en el que ilustra cómo una organización puede actualizar y re- 
visar las probabilidades iniciales al tener disponible nueva información. Sean 5, , B 2 
y Z? 3 los eventos el producto es superior, tiene la misma calidad y es inferior al del 
competidor, respectivamente. Las probabilidades a priori correspondientes son 0.5, 
0.3 y 0.2. Sea A el evento "la encuesta revelará un producto superior". Las proba- 
bilidades condicionales que involucran una evidencia experimental son P(A\B¡) = - 
0.7, P(A\B 2 ) = 0.4 y P(A\B } ) = 0.2. La probabilidad a posteriori P(B¡\A) desea- 
da es: 

p( Bi \a) « *wm 



/ > (fi,)/'(A|fi 1 ) + P(B 2 )P(A\B 2 ) + P(B } )P(A\B } ) 
= 0.6863. 
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Para calcular las probabilidades de varios eventos es necesario contar el número de 
resultados posibles de un experimento, o contar el número de resultados que son fa- 
vorables a un evento dado. El proceso de conteo puede simplificarse mediante el 
empleo de dos técnicas de conteo denominadas permutaciones y combinaciones. 

lina permutación es un arreglo en un orden particular, de los objetos que forman 
un conjunto. Por ejemplo, considere las diferentes formas en que pueden situarse las 
letras a, byc. Para la primera posición puede elegirse a cualquiera de las tres letras; 
para la segunda se puede escoger a cualquiera de las dos restantes y para la tercera 
debe seleccionarse la letra que no se utilizó. Así existen 3x2x1 = 6 maneras en las 
que pueden arreglarse tres letras. Los seis arreglos o permutaciones son: 

abe, acb, bac, bea, cab, cba. 
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empleando el mismo razonamiento, el número total de maneras en que pueden 
arreglarse las letras a,b, cy</es4x3x2x 1 = 24. En general, el número de per- 
mutaciones de n objetos diferentes es: 

n(n- Din - 2) ••• (2)(1). (2.12) 

El producto de un entero positivo por todos los que le preceden se denota por ni 
y see lee "n factorial". Por ejemplo, 2! = 2 x 1 = 2, 3! = 3 x 2 x 1 = 6, 4! = 4 
x 3 x 2 x 1 = 24, etc. Nótese que de (2.12) se tiene: 

n(n - 1)! = n! 



(« - 1)! = n\/n. 
De esta manera, cuando n = 1, se define a 0! = 1. I 



En este punto se examinarán las permutaciones de n objetos, si únicamente r =s n 
de éstos se emplean en cualquier ordenamiento. Igualmente, para la primera posi- 
ción se puede seleccionar cualquiera de los n objetos, para la segunda uno de los res- 



í 

i 

tantes n - 1, y se continúa el procedimiento hasta la r-ésima posición. En este j 

momento se han empleado r - 1 objetos, quedando /i - (r - 1), a partir de los cuales ' 

se hace la selección. Por lo tanto, el número de permutaciones de n objetos si se toma f 

r a la Vez es: 1 

P{n, r)* = n(n - l)(n - 2) - (n - r + 1) 

n(n - l)(n - 2) - (n - r + 1)(« - r)l 



in 



ni 



in - r)!' (2.13) 

Nótesequesir = n, (2.13) se reduce al resultado anterior P(n, n) = «!, oelnúmero 1 

de permutaciones de n objetos, tomando n a la vez, es ni. \ 

i 

Ejemplo 2.8 En muchos Estados de la Unión Americana, las placas de los automó- 
viles, se identifican por tres letras y tres números. ¿Cuál es el número total si ningu- 
na letra de placas posible puede usarse más de una ocasión en la misma placa? ¿Cuál 
es el número total sin esta restricción? 

Con la restricción, el número de permutaciones que puede obtenerse con las 26 
letras del alfabeto, tomadas tres a la vez, es: 



* Esta es una de las muchas formas de denotar el número de permutaciones de n objetos tomando r a la 
vez. Otros símbolos empleados son „/",, P", P H , y (n),. 
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Dado que a cada uno de los 15 600 arreglos de tres letras se les puede asignar 1 000 
diferentes números de tres dígitos (000-999), el número total de placas es de 
15 600 000. Sin la restricción, que es. la práctica usual, las seis posiciones en una 
placa de automóvil pueden ocuparse de la siguiente forma: cada una de las tres pri- 
meras posiciones puede ocuparse de 26 maneras diferentes, mientras que cada una 
de las tres posiciones restantes puede ocuparse en una de diez formas posibles; dado 
que existen 26 letras y diez números, respectivamente. De esta manera el número to- 
tal de placas de automóvil es 26 x 26 x 26 x 10x10 x 10 = 17 576 000. 

Una combinación de los objetos de un conjunto es una selección de éstos sin im- 
portar el orden. Se entenderá por el número de combinaciones de r objetos tomados 
de un conjunto que contiene a n de éstos, al número total de selecciones distintas en 
las que cada una de éstas contiene r objetos. La diferencia entre una permutación y 
una combinación es que en la primera el interés se centra en contar todas las po- 
sibles selecciones y todos los arreglos de éstas, mientras que en la segunda el interés 
sólo recae en contar ci numero de selecciones diferentes. De esta manera abe y acá 
"on diferentes combinaciones de tres letras, mientras que acd y ade son distintas per- 
mutaciones de la misma combinación. Puede obtenerse el número de combinaciones 
de n objetos tomando r a la vez (denotada por (") y que se lee "n combinación r")> 
dividiendo el correspondiente número de permutaciones por r! dado que en cada 
combinación existen r! permutaciones. Por lo tanto: 



(:) 



") = P{n, r)¡r\ 



ni 



De (2.14) puede notarse que: 



(n - r)\r\ 



" ! =»; 



(2.14) 



n) {n - n)\n\ 
0/ (n - 0)! 0! 



n- \ [n - (« - !)]!(« - 1)! 



= n; 



v « - r) [„-(„- r )]\( n - r )\ \ r 
Dos ejemplos específicos son: 

^5\ 5! 5x4x3! 



2/ (5 - 2)! 2! 3!2! 



= 10, 



* Otros símbolos comúnmente empleados para denotar el número de combinaciones de n objetos, toman- 
do r a la vez, son C(n,r), „C r , C,, y C„.,. 
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(?)" 



10 V 10! 10 x 9 x 8! A . 

= 45. 



2/ (10 - 2)! 2! 8! 2! 



Ejemplo 2.9 Supóngase que van a enviarse cinco jueces federales a cierto Estado. 
El jefe del senado estatal envía al presidente una lista que contiene los nombres de 
diez hombres y cuatro mujeres. Si el presidente decide que de los cinco jueces tres de- 
ben ser hombres y dos mujeres ¿de cuántas maneras puede lograrse lo anterior, 
empleando a los candidatos de la lista? 

El número de maneras distintas en que pueden seleccionarse tres hombres de 
entre diez es: 

\0\ 10 x 9 x 8 x 7! = 



3/ 7! 3! 

Asimismo, el número de maneras en que pueden seleccionarse dos mujeres de entre 
cuatro es: 

4\ 4x3x2! 

= 6. 



2/ 2! 2! 

Puesto que el número de maneras en que pueden seleccionarse tres hombres de entre 
diez es 120, y el de dos mujeres de entre cuatro es seis, el número de maneras en que 
ambos eventos pueden ocurrir es: 

'•) (<) - m 
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Ejercicios 

2.1. Los empleados de la compañía New Horizons se encuentran separados en tres divi- 
siones: administración, operación de planta y ventas. La siguiente tabla indica el núme- 
ro de empleados en cada división clasificados por sexo: 



Mujer (M) Hombre (H) Totales 



Administración (A) 20 30 50 

Operación de planta (O) 60 140 200 

Ventas (V) 100 50 150 

Totales 180 220 400 
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a) Usar un diagrama de Venn para ilustrar los eventos O y M para todos los empleados 
de la compañía. ¿Son mutuamente excluyentes? 

b) Si se elige aleatoriamente un empleado: ■'--■■..■>• ■"■■•■ 

1. ¿Cuál es la probabilidad de que sea mujer? 

2. ¿Cuál es la probabilidd de que trabaje en ventas? 

3. ¿Cuál es la probabilidad de que sea hombre y trabaje en la división de adminis- 
tración? \ 

4. ¿Cuál es la probabilidad de que trabaje en la división de operación de planta, si es 
mujer? 

5. ¿Cuál es la probabilidad de que sea mujer si trabaja en la división de operación de 
planta? 

c) ¿Son los eventos V y H estadísticamente independientes? 

d) ¿Son los eventos A y M estadísticamente independientes? 

e) Determinar las siguientes probabilidades: 

1. P(A U M) 3. P(0 D F) 

2. mUW) 4. P{M\A) 

2.2. Con la definición 2. 14 demuéstrese que para cualesquiera dos eventos, A y B, P(A\B) + 
P(Á\B) = 1, con tal de que P(B) £ 0. 

2.3. Sean A y B dos eventos cualquiera de S. Si A y B son mutuamente excluyentes, muéstre- 
se que no pueden ser independientes. Dedúzcase cuándo dos eventos independientes 
son, también, mutuamente excluyentes. 

2.4. Sean A y B dos eventos cualquiera de S. Empléese un diagrama de Venn para demos- 
trar que P(A D B) = P(A) - P(A D B). 

2.5. Una familia tiene tres hijos. Determinar todas las posibles permutaciones, con respecto 
al sexo de los hijos. Bajo suposiciones adecuadas, ¿cuál es la probabilidad de que, exac- 
tamente, dos de los hijos tengan el mismo sexo?, ¿cuál es la probabilidad de tener un va- 
rón y dos mujeres?, ¿cuál es la probabilidad de tener tres hijos del mismo sexo? 

2.6. Se extraen, sin reemplazo, dos cartas de una baraja. ¿Cuál es la probabilidad de que am- 
bas sean ases? 

2.7. Se lanza una moneda diez veces y en todos los lanzamientos el resultado es cara. ¿Cuál 
es la probabilidad de este evento?, ¿cuál es la probabilidad de que en el decimoprimero 
lanzamiento el resultado sea cruz? 

2.8. Una agencia automotriz recibe un embarque de 20 automóviles nuevos. Entre éstos, dos 
tienen defectos. La agencia decide seleccionar, aleatoriamente, dos automóviles de entre 
los 20 y aceptar el embarque si ninguno de los dos vehículos seleccionados tiene defec- 
tos. ¿Cuál es la probabilidad de aceptar el embarque? 

2.9. Se lanza una moneda con una probabilidad de 2/3 que el resultado sea cara. Si apare- 
ce una cara, se extrae una pelota, aleatoriamente, de una urna que contiene dos pelotas 
rojas y tres verdes. Si el resultado es cruz se extrae una pelota, de otra urna, que con- 
tiene dos rojas y dos verdes. ¿Cuál es la probabilidad de extraer una pelota roja? 

2.10. De entre 20 tanques de combustible fabricados para el transbordador espacial, tres se 
encuentran defectuosos. Si se seleccionan aleatoriamente cuatro tanques: 

a) ¿Cuál es la probabilidad de que ninguno de los tanques se encuentre defectuoso? 

b) ¿Cuál es la probabilidad de que uno de los tanques tenga defectos? 
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2.11. La probabilidad de que cierto componente eléctrico funcione es de 0.9. Un aparato con- 
tiene dos de éstos componentes. El aparato funcionará mientras lo haga, por lo menos, 
uno de los componentes. - 

a) Sin importar cuál de los dos componentes funcione o no, ¿cuáles son los posibles re- 
sultados y sus respectivas probabilidades? (Puede suponerse independiencia en la opera- 
ción entre los componentes.) 

b) ¿Cuál es la probabilidad de que el aparato funcione? 

2.12. Un sistema contiene tres componentes A, ByC. Estos pueden conectarse en una, cual- 
quiera, de las cuatro configuraciones mostradas en la figura 2.3. Si los tres componentes 
operan de manera independiente y si la probabilidad de que uno, cualquiera de ellos, 
esté funcionando es de 0.9S, determinar la probabilidad de que el sistema funcione para 
cada una de las cuatro configuraciones. 

2.13. Una forma de incrementar la probabilidad de operación de un sistema (conocida como 
la confiabilidad del sistema), es mediante la introducción de una copia de los compo- 
nentes en una configuración paralela, como se ilustra en la segunda parte de la figura 
2.3. Supóngase que la Nasa desea una probabilidad no menor de 0.999 99, de que el 
transbordador espacial entre en órbita alrededor de la tierra, con éxito. ¿Cuántos moto- 
res cohete deben configurarse en paralelo para alcanzar esta confiabilidad de operación 
si se sabe que la probabilidad de que uno, cualquiera, de los motores funcione ade- 
cuadamente es de 0.95? Supóngase que los motores funcionan de manera independiente 
entre sí. 
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FIGURA 2.3 Cuatro configuraciones para tres componentes 
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2. 14. Supóngase que la probabilidad de que los Potros de Baltimore ganen el campeonato de 
la Conferencia Americana es de 0.25, y la probabilidad de que lo obtengan los Cargado- 
res de San Diego es de 0.20. Además, la probabilidad de que el campeón de la Conferen- 
cia Americana gane el Super Tazón es 0.4S, 0.5S o 0.35, dependiendo de si los Potros, 
los Cargadores o algún otro equipo gana el campeonato. 

a) ¿Cuál es la probabilidad de que un equipo de la Conferencia Americana gane el Su- 
per Tazón? 

b) Si un equipo de la Conferencia Americana gana el Super Tazón, ¿cuál es la probabi- 
lidad de que los Potros de Baltimore ganen el título de su Conferencia? 

2.15. El 57o de las unidades producidas en una fábrica se encuentran defectuosas cuando el 
proceso de fabricación se encuentra bajo control. Si el proceso se encuentra fuera de 
control, se produce un 307b de unidades defectuosas. La probabilidad marginal de que el 
proceso se encuentre bajo control es de 0.92. Si se escoge aleatoriamente una unidad y se 
encuentra que es defectuosa, ¿cuál es la probabilidad de que el proceso se encuentre 
bajo control? 

2.16. Una planta armadora recibe microcircuitos provenientes de tres distintos fabricantes B t , 
B 2 y B 3 . El 507b del total se compra a B t mientras que a B 2 y B¡ se les compra un 25% a 
cada uno. El porcentaje de circuitos defectuosos para i?, , B 2 y B } es 5, 10 y 127b respec- 
tivamente. Si los circuitos se almacenan en la planta sin importar quién fue el proveedor: 

a) Determinar la probabilidad de que una unidad armada en la planta contenga un cir- 
cuito defectuoso. 

b) Si un circuito no está defectuoso, ¿cuál es la probabilidad de que haya sido vendido 
por el proveedor B 2 1 

2.17. Un inversionista está pensando en comprar un número muy grande de acciones de una 
compañía. La cotización de las acciones en la bolsa, durante los seis meses anteriores, es 
de gran interés para el inversionista. Con base en esta información, se observa que la 
cotización se relaciona con el producto nacional bruto. Si el PNB aumenta, la probabili- 
dad de que el valor de las acciones aumente es de 0.8. Si el PNB es el mismo, la probabi- 
lidad de que ias acciones aumenten su valor es de 0.2. Si el PNB disminuye, la probabilidad 
es de sólo 0.1. Si para los siguientes seis meses se asignan las probabilidades 0.4, 0.3 
y 0.3 a los eventos, el PNB aumenta, es el mismo y disminuye, respectivamente, deter- 
minar la probabilidad de que las acciones aumenten su valor en los próximos seis meses. 

2.18. Con base en varios estudios una compañía ha clasificado, de acuerdo con la posibilidad 
de descubrir petróleo, las formaciones geológicas en tres tipos. La compañía pretende 
perforar un pozo en un determinado sitio, al que se le asignan las probabilidades de 
0.35, 0.40 y 0.25 para los tres tipos de formaciones respectivamente. De acuerdo con la 
experiencia, se sabe que el petróleo se encuentra en un 407o de formaciones del tipo I, en 
un 207o de formaciones del tipo II y en un 307o de formaciones del tipo III. Si la 
compañía no descubre petróleo en ese lugar, determínese la probabilidad de que exista 
una formación del tipo II. 



CAPÍTULO TRES 



Variables aleatorias y 
distribuciones de probabilidad 



3.1 El concepto de variable aleatoria 

En el capítulo dos se examinaron los conceptos básicos de probabilidad con respecto 
a eventos que se encuentran en un espacio muestral. Los experimentos se conciben 
de manera que los resultados del espacio muestral son cualitativos o cuantitativos. 
Como ejemplos de resultados cualitativos se tienen: a) el lanzamiento de una mone- 
da es "cara" o "cruz"; b) un producto manufacturado en una fábrica puede ser 
"defectuoso" o "no defectuoso", o c) una persona en particular puede preferir la 
loción X sobre la loción Y. Puede ser útil la cuantificación de los resultados cualita- 
tivos de un espacio muestral y, mediante el empleo de medidas numéricas, estudiar 
su comportamiento aleatorio. El concepto de variable aleatoria proporciona un me- 
dio para relacionar cualquier resultado con una medida cuantitativa. 

Definición 3.1 Sea S un espacio muestral sobre el que se encuentra definida una 
función de probabilidad. Sea A' una función de valor real definida sobre S, de mane- 
ra que transforme los resultados de S en puntos sobre la recta de los reales. Se dice 
entonces que X es una variable aleatoria. 

Se dice que X es "aleatoria" porque involucra la probabilidad de los resultados 
del espacio muestral, y X es una función definida sobre el espacio muestral, de ma- 
nera que transforma todos los posibles resultados del espacio muestral en cantidades 
numéricas. 

Par ilustrar la noción de variable aleatoria, considérese el lanzamiento de una 
moneda. El espacio muestral está constituido por dos posibles resultados, "cara" y 
"cruz". Sea A(cruz) = y Arcara) = 1; de esta manera se han transformado los 
dos posibles resultados del espacio muestral en puntos sobre la recta de los reales. 
Por P(X = 0) se entenderá la probabilidad de que la variable aleatoria tome el 
valor cero o, de manera equivalente, la probabilidad de que caiga cruz cuando se 
lance la moneda. Como ejemplo adicional, considérese el lanzamiento de dos dados 
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indistinguibles y los 36 posibles resultados, como se muestra en la tabla 2.1. Se defi- 
ne como variable aleatoria A - a la suma de los valores de las dos caras de los dados. 
La tabla 3.1 relaciona los 36 resultados con los valores correspondientes de la va- 
riable aleatoria X y sus probabilidades. La naturaleza probabilistka de la variable 
aleatoria X, la suma de las dos caras, puede observarse el granear cada valor de X 
contra su probabilidad como se muestra en la. figura 3.1. 

Para cada uno de los ejemplos anteriores, eí número de posibles valores de la va- 
riable aleatoria es finito. Sin embargo, se pueden definir variables aleatorias cuyos 
valores, sean contables o no. Ya que una variable aleatoria es una caracterización 
cuantitativa de los resultados de un espacio muestral, esta posee intrínsecamente la 
naturaleza discreta o continua de este espacio. 

Definición 3.2 Se dice que una variable aleatoria X es discreta si el número de valo- 
res que puede tomar es contable (ya sea finito o infinito), y si estos pueden arreglarse 
en una secuencia que corrc:pc~:de con los enteros positivos. 

Definición 3.3 Se dice que una variable aleatoria X es continua si sus valores con- 
sisten en uno o mas intervalos de la recta de los reales. 
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En esta sección se considerará el concepto de distribución de probabilidad de una va- 
riable aleatoria. En la figura 3. 1 se muestra la gráfica de los valores correspondientes 
a la variable aleatoria que respresenta la suma de las caras de los dos dados, cuando 
éstos se tiran. En general, una variable aleatoria discreta X representa los resultados 
de un espacio muestral en forma tal que por P(X = x) se entenderá la probabilidad 
de que X tome el valor de x. De esta forma, al considerar los valores de una variable 
aleatoria es posible desarrollar una función matemática que asigne una probabilidad 
a cada realización x de la variable aleatoria X. Esta función recibe el nombre defun- 



TABLA 3.1 Correspondencia entre los resultados del lanzamiento de un par de dados y la 
variable aleatoria que representa la suma de las caras 







Valor de la 


Número de 




Resultado 




variable aleatoria 


ocurrencias 


Probabilidad 


(1,1) 




2 


1 


1/36 


(1,2), (2,1) 




3 


2 


2/36 


(1,3), (2,2), (3,1) 




4 


3 


3/36 


(1,4), (2,3), (3,2), (4,1) 




5 


4 


4/36 


(1,5), (2,4), (3,3), (4,2), 


(5,1) 


6 


5 


5/36 


(1,6), (2,5), (3,4), (4,3), 


(5,2), (6,1) 


7 


6 


6/36 


(2,6), (3,5), (4,4), (5,3), 


(6,2) 


8 


5 


5/36 


(3,6), (4,5), (5,4), (6,3) 




9 


4 


4/36 


(4,6), (5,5), (6,4) 




10 


3 


3/36 


(5,6), (6,5)' 




11 


2 


2/36 


(6,6) 




12 


1 


1/36 
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FIGURA 3.1 Probabilidad para las sumas de las caras de dos dados 

ción de probabilidad* de la variable aleatoria X. El término más general, distri- 
bución de probabilidad, se refiere a la colección de valores de la variable aleatoria y 
a la distribución de probabilidades entre éstos. Sin embargo, hacer referencia a la 
distribución de probabilidad de X no sólo implica la existencia de la función de pro- 
babilidad, sino también la existencia de la función de distribución acumulativa 
átX. 

Definición 3.4 Sea X una variable aleatoria discreta. Se llamará a /?(jc) = P(X = jc) 
función de probabilidad de la variable aleatoria X, si satisface las siguientes pro- 
piedades: 

1 . p(x) > para todos los valores x de X; 

2. 2,/rtjr) = 1. 

Definición 3.5 La función de distribución acumulativa de la variable aleatoria X 
es la probabilidad de que X sea menor o igual a un valor específico dexy está dada 
por: 

F(x) = P(X^x)= 2 p( X¡ ). 



* El nombre completo de esta función es el defunción música de probabilidad de una variable aleatoria 
discreta. 
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Por lo tanto, en el caso discreto, una variable aleatoria A está caracterizada por 
la función dé probabilidad puntual p^, la cual determina la probabilidad puntual 
de que A" = x, y por la función de distribución acumulativa/^, la que representa la 
suma de las probabilidades puntuales hasta el valor x de A inclusive. Nótese que las 
definiciones anteriores son consistentes con los axiomas de probabilidad, ya que esta 
función no es negativa para cualquier valor de la variable aleatoria y la suma de las 
probabilidades para todos los valores de A" es igual a uno. 



Ejemplo 3. 1 Considérese de nuevo el lanzamiento de dos dados. Si A" es la variable 
aleatoria que representa la suma de las caras, la función de probabilidad de A es 



P(x) = 



• 6 - |7 - x\ 

36 




x = 2,3 12, 

para cualquier otro valor 



(3.1) 



Con (3.1), pueden determinarse las probabilidades para varios valores de A con- 
tenidos en la tabla 3 . 1 y cuya gráfica se muestra en la figura 3.1. Además, puede eva- 
luarse la función de distribución acumulativa de A de la siguiente forma: 



F(l) 
F(2) 
FO) 
F (4) 
F(5) 
F(6) 
F (1) 
F(8) 
F i9) 
F(10) 
F(ll) 
F(12) 



P{X *z 
P(X^ 
P{X *z 
P{X *z 
P(X =£ 
P(X s; 
P(X s; 
P(X =£ 
P(X =£ 
P(X ss 



1) 
2) 
3) 
4) 
5) 
6) 
7) 
8) 
9) 
10) 



P(X ^ II) 

P(X =£ 12) 





1/36 

3/36 

6/36 

10/36 

15/36 

21/36 

26/36 

30/36 

33/36 

35/36 

1. 



Nótese que: 



P(X > 7) = 1 - P(X ^ 7) = 1 - F(7) = 15/36; 

P(X = 7) = P(X ^ 7) - P(X ^ 6) = F(7) - F(6) = 6/36; 

P(5 ss X =s 9) = P(X =s 9) - P{X *£ 4) = F(9) - F(4) = 24/36. 
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En general, la función de distribución acumulativa f\x) de una variable aleatoria 
discreta es una función no decreciente de los valores de X, de tal manera que 

1. s£ F(x) s£ 1 para cualquier x; 

2. F(x¡) > F(xj) si x¡ > xf, 

3P(X>x) = 1 - F(x). 
Además, puede establecerse que para variables aleatorias de valor entero se tiene que: 

4. P(X = x) = F(x) - F(x - 1); 

5. P( X¡ « * « Xj ) = F( Xj ) - F( X¡ - 1). 

La gráfica de la distribución acumulativa del ejemplo 3.1 se muestra en la figura 
3.2. En esta figura es evidente que la función de distribución acumulativa de una va- 
riable aleatoria discreta es una función escalón, que toma un valor superior en cada 
salto. , 



36/36 



30/36 



25/36 



"£ 20/36 - 
15/36 - 



10/36 - 



5/36 - 



J L 



_L 



J l_ 



J L 



8 9 10 11 12 



FIGURA 3.2 'Representanción gráfica de la función de distribución acumulativa de la suma 
de las caras de dos dados, cuando éstos se lanzan 
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3.3 Distribuciones de probabilidad de variables aleatorias continuas 

En la sección anterior se trataron distribuciones de probabilidad para variables alea- 
torias discretas. En ésta se examinarán conceptos similares para variables aleatorias 
continuas. En el caso discreto, se asignan probabilidades positivas a todos los valo- 
res puntuales dé la variable aleatoria, pero la suma de todas ellas es uno aún a pesar 
de que el conjunto de valores sea infinito contable. Para el caso continuo, lo anterior 
no es posible. 

Por esta razón, la probabilidad de que una variable aleatoria continua X tome un 
valor específico x es cero. 

Se ilustrará el sentido de este resultado mediante el siguiente ejemplo: supóngase 
que se observa el intervalo entre dos llegadas consecutivas a un servicio. Si el disposi- 
tivo de medición puede medir el tiempo hasta una décima de segundo, entonces un 
intervalo de 83.4 seg puede realmente tomarse como la media y el verdadero valor 
puede encontrarse entre 83.35 y 83.45 seg. Por lo tanto, en el caso continuo es más 
lógico visualizar las probabilidades de intervalos que de puntos en particular. 

La distribución de probabilidad de una variable aleatoria continua X está carac- 
terizada por una función/^ que recibe el nombre defunción de densidad de proba- 
bilidad. Esta función f(x) no es la misma función de probabilidad que para el caso 
discreto. Como existe la probabilidad de que X tome el valor específico x es cero, la 
función de densidad de probabilidad no representa la probabilidad de que X = x. 
Más bien, ésta proporciona un medio para determinar la probabilidad de un interva- 
lo a =£ X *£ b. 

Para ilustrar lo que se entiende como función de densidad de probabilidad, su- 
póngase que se miden los tiempos, entre dos llegadas consecutivas, de 100 clientes a 
una tienda y se agrupan en diez intervalos de un minuto cada uno, como se muestra 
en la tabla 3.2. En este punto se grafican las frecuencias relativas para cada intervalo 
por medio de rectángulos, como se muestra en la figura 3.3, para indicar que la fre- 
cuencia se refiere al intervalo completo más que a un punto en particular del mismo. 
Nótese que, puesto que la base tiene una longitud igual a uno, el área de cada rectán- 
gulo es la frecuencia relativa del correspondiente intervalo y, por lo tanto, la suma 
de las áreas de todos los rectángulos es igual a uno. 



TABLA 3.2 Tiempos entre dos llegadas consecutivas, agrupados, de 100 clientes a un servicio 



<aas 



Intervalo Número de llegadas Frecuencia relativa 

< x « i 22 0.22 

1 < x =s 2 18 0.18 

2 < x *£ 3 17 0.17 

3 < x =£ 4 13 0.13 

4 < x « 5 14 0.14 

5 < x < 6 8 0.08 

6 < x « 7 6 0.06 

7 < x « 8 7 0.07 

8 < x =s ' 9 3 0.03 

9 < x « 10 2 0.02 
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Supóngase que en lugar de observar los tiempos entre dos llegadas consecutivas 
de 100 clientes, se observan los tiempos para 1 000 clientes y se agrupan en 20 inter- 
valos de medio minuto cada uno; o bieh pueden observarse los tiempos para 10 000 
clientes agrupándolos en 40 intervalos de 15 segundos cada uno. Cada vez que esto 
se hace, se produce un histograma que es cada vez menos irregular, pero en el que la 
frecuencia sigue siendo prácticamente la misma. Al continuar este proceso de 
aumento del número de observaciones mientras se disminuye la amplitud de los in- 
tervalos de clase, se llegará a una curva límite. Esto es, cuando el número observado 
de tiempos, entre dos llegadas consecutivas, sea muy grande y la amplitud de los in- 
tervalos de clase sea muy pequeña, la frecuencia relativa aparecerá, en esencia, como 
una curva lisa. Con base en la figura 3.3, puede especularse que la curva límite para 
este ejemplo es la que se muestra en la figura 3.4. 

La función J{x), cuya gráfica es la curva limite que se obtiene para un número 
muy grande de observaciones y para una amplitud de intervalo muy pequeña, es la 
función de densidad de probabilidad para una variable aleatoria continua X, ya que 
la escala vertical se elige de manera que el área total bajo la curva es igual a uno. La 
función de densidad de probabilidad de una variable aleatoria continua X se define 
formalmente de la siguiente manera: 

Definición 3.6 Si existe una función f(x) tal que 

l./tx)2=0, -°°<;r<=c, 

2. \ J(x)dx = 1, y 

3. P(a « X *£ b) = í f(x)dx 
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^ IGURA 3 3 Frecuencias relativas para los tiempos entre dos llegadas consecutivas, agrupa- 
dos en diez intervalos 
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FIGURA 3.4 Curva límite para la frecuencia relativa de los tiempos de llegadas 



para cualesquiera a y b, entonces ./(x) es la función de densidad de probabilidad de la 
variable aleatoria continua X. 

Puesto que el área total bajo^x) es uno, la probabilidad del intervalo a *£ X =s 
b es el área acotada por la función de densidad y las rectas X = ayX = b, como se 
muestra en la figura 3.5. 




FIGURA 3.5 Probabilidad ilustrada como el área bajo la curva de densidad 
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Al igual que en el caso de una variable aleatoria discreta, la función de distribu- 
ción acumulativa de una variable aleatoria continua A" es la probabilidad de que X 
tome un valor menor o igual a algún x específico. Esto es, 



P(X =s jc) 



= F <*> = L 



Mdt, 



(3.2) 



en donde t es una variable artificial de integración. Por lo tanto, la función de distri- 
bución acumulativa F\x) es el área acotada por la función de densidad que se en- 
cuentra a la izquierda de la recta X = x, como se ilustra en la figura 3.6. 
Dado que para cualquier variable aleatoria continua X, 



entonces: 



P(X = x) = £ f{t)dt = 0, 



P(X =£ jc) = P(X < jc) = F(x). 



La distribución acumulativa F[x), es una función lisa no decreciente de los valo- 
res de la variable aleatoria con las siguientes propiedades: 

1. F(-oo) = 0; 

2. F(«) =1; 

3. P(a < X < b) = F(b) - F{a); 

4. dF{x)/dx = /(jc). 



/(*) 


/ - v ; =:^¿. 






\ ' P(.X<x) = FÍ'x) '• 












; 


c 



FIGURA 3.6 La distribución acumulativa, ilustrada como un área bajo la curva de densidad 
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La propiedad de que la derivada de la función de distribución acumulativa es la fun- 
ción de densidad de probabilidad, es una consecuencia del teorema fundamental del 
cálculo integral. 

Ejemplo 3.2 La variable aleatoria X representa el intervalo de tiempo entre dos lle- 
gadas consecutivas a una tienda y su función de densidad de probabilidad está dada 
por: 

f*exp(-jr/2),* jc>0, 



ftx) = , 

[ para cualquier otro valor 

para una constante k apropiada. Determinar el valor de k, la función de distribución 
acumulativa, la probabilidad de que 2 < X < 6, y la probabilidad de que A" «£ 8. 
Debe insistirse en que: 



í 



f(x)dx = I; 



por lo tanto, dado que en este ejemplo ./(jc) = si x «£ 0, entonces el valor de k está 
determinado por: 

* c\p(-x/2)dx = 1. 
Jo 

Después de la integración se tiene que: 

-2¿exp(-jr/2) = 1, 
o 

y k = 1/2. La función de distribución acumulativa es: 
F(x) = \ J(t)dt 

= J Odt + ^J o exp(-//2)rf/ 

= 1 - exp(-jr/2) paraje > 0, 

yF{x) = Opara x =£ 0. Además DF(x)/dx = 1/2 exp(-jr/2), que es lo que se es- 
peraba. 

La probabilidad de que un intervalo entre dos llegadas consecutivas se encuentre 
entre dos y seis minutos es: 

1 f 6 
P(2 < X < 6) = - J ? exp(-.r/2)í/.v = F(6) - F(2) 

= [1 - exp(-3)] - [1 - exp(- 1)] = 0.3181. 

* No se dudará en emplear "exp" en lugar de "e", toda vez que esta notación sea menos oscura. 
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La probabilidad de que transcurran menos de ocho minutos entre dos llegadas con- 
secutivas es: 

P(X< 8) = F(8) = 1 - exp(-4) = 0.9817. 
La probabilidad de que ésta exceda los ocho minutos es 1 - F(8) = exp(-4) = 0.0183. 



Ejemplo 3.3 La variable aleatoria que representa la proporción de accidentes 
automovilísticos fatales en Estados Unidos, tiene la siguiente función de densidad: 

Í4241 - *)' < x « 1 

{ para cualquier otro valor 

I 
¿Cuál es la probabilidad de que no más del 25% de los accidentes automovilísticos I 

sean fatales? En otras palabras, ¿cuál es P[X =s 0.25]? | 

f 



La función J{x) es una densidad de probabilidad dado que: 

2 3 4 5 6 



„, f „ o, J* 2 5x 3 10a: 4 10a: 5 5a- 6 a- 7 
42 I x(\ - x) 5 dx = 42 1 — - — + — — + 



= 1. 

o 



Nótese que cuando la variable aleatoria X es 1/4, la función de densidad es 
f{\/4) = 2.4917. De esta forma, en el caso continuo es bastante factible tener, para 
un valor específico de la variable aleatoria X, un valor de la función de densidad 
mayor que uno aun a pesar de que la integral de la función de distribución sobre el 
intervalo completo de valores de la variable aleatoria sea uno. Finalmente, la fun- 
ción de distribución acumulativa es: 



F{x) 



= 42 i t{\ - tfdt = 21a- 2 - 70a- 3 + 105a- 4 - 84a- 5 + 35a: 5 - 6a: 7 . 
Jo 



Por lo tanto, la probabilidad de que la proporción de accidentes automovilísticos fa- 
tales sea menor del 25% es: 

F(l/4) = 21(l/4) 2 - 70(1 /4) 3 + 105(l/4) 4 - 84(1 /4) 5 + 35(1 /4) 6 - 6(1 /4) 7 
= 0.5551. 

3.4 Valor esperado de una variable aleatoria 

El valor esperado (o esperanza) de una variable aleatoria es un concepto muy impor- 
tante en el estudio de las distribuciones de probabilidad. La esperanza de una va- 
riable aleatoria tiene sus orígenes en los juegos de azar, debido a que los apostadores 
deseaban saber cuál era su esperanza de ganar repetidamente un juego. En este senti- 
(*o, el valor esperado representa la cantidad de dinero promedio que el jugador está 
dispuesto a ganar o perder después de un número muy grande de apuestas. Este signi- 
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ficado también es válido para una variable aleatoria. Es decir, el valor promedio de 
una variable aleatoria después de un número grande de experimentos, es su valor es- 
perado. 

Para ilustrar la esencia de la esperanza, se analizará el siguiente juego de azar. 
Supóngase que se tiene moneda normal y el jugador tiene tres oportunidades para 
que al lanzarla aparezca una "cara". El juego termina en el momento en el que cae 
una "cara" o después de tres intentos, lo que suceda primero. Si en el primero, segundo 
o tercer lanzamiento aparece "cara" el jugador recibe $2, $4, y $8 respectivamente. 
Si no cae "cara" en ninguno de los tres lanzamientos, pierde $20. Para determinar la 
ganancia o pérdida promedio después de un número muy grande de juegos, sea X 
la variable aleatoria que representa la cantidad que se gana o se pierde cada vez que 
se juega. Los posibles valores de X junto con sus respectivas probabilidades se en- 
cuentran en la tabla 3.3. Después de un número grande de juegos se espera ganar 
$2 en cualesquiera de los dos lanzamientos, $4 en cualesquiera de los cuatro lanza- 
mientos, $8 una vez. ca Ja ocho lanzamientos y se espera perder $20 una vez en cada 
ocho intentos. El valor esperado, o la cantidad promedio que se ganaría en cada juego 
después de un número muy grande de éstos, se determina multiplicando cada canti- 
dad que se gana o se pierde por su respectiva probabilidad y sumando los resultados. 
De acuerdo con la anterior, la esperanza de ganar es: 

($2)(l/2) + ($4)(l/4) + ($8)(l/8) + (-$20)(l/8) = $0.50 

por juego. Nótese qué el valor esperado de 50 centavos no es ninguno de los posibles 
valores de la variable aleatoria; de esta forma, es completamente posible que una va- 
riable aleatoria nunca tome el valor de su esperanza. 

El ejemplo anterior sugiere la siguiente definición de la esperanza matemática de 
una variable aleatoria: 

Definición 3.7 El valor esperado de una variable aleatoria X es el promedio o valor 
medio de A" y está dado por: 

E(X) = ¿j xp(x) si x es discreta, o 

x 

E{X) = \ xf(x)dx si X, es continua. 

en donde p(x) y j\x) son las funciones de probabilidad y de densidad de probabili- 
dad, respectivamente. 

TABLA 3.3 Probabilidades de ganar o perder en un juego de azar 

X P(X) 

2 P(X = 2) = P(H) = 1/2 

4 P(X = 4) = P(T fl H) = 1/4 

8 P(X = 8) = P{T n T fl H) = 1/8 

-20 P(X = -20) = P{T n T n T) = 1/8 
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En general, el valor esperado de una función g(x) de la variable aleatoria X, está 
dado por: 



E[g(X)] = 2 S(*)PW si x es discreta, o 

£[g(AT)] = I g{x)f(x)dx si A", es continua. 



(3.3) 



La esperanza de una variable aleatoria X no es una función de X sino un número 
fijo y una propiedad de la distribución de probabilidad de X. Por otra parte, el valor 
esperado puede no existir dependiendo de si la correspondiente suma o integral no 
converge en un valor finito. 

Ejemplo 3.4 ^i la variable aleatoria X representa la suma de las caras de dos dados 
cuando éstos se lanzan, demostrar que el valor esperado de A" es siete. 

Con la función de probabilidad de X dada por (3. 1) y la definición 3.7, se tiene: 

12 

E(X) = 2 xp(x) = (2)(l/36) + (3)(2/36) + ••• + (12)(l/36) = 7. 



Ejemplo 3.5 Para el ejemplo 3.3, determinar el valor esperado de la proporción de 

accidentes fatales en Estados Unidos. 

Con la definición 3.7, el valor esperado de la proporción es: 



E(X) = 42 [ xf(x)dx 

= 42 I jc 2 (1 - x?dx 
Jo 



= 42v J r 



= 0.25. 



5jc , 


5jc 3 5jc 4 


A 


— + 2x 2 - 


_ _L - 


- ir 


4 


3 7 


8/ 



Ejemplo 3.6 Supóngase que el tiempo necesario para reparar una pieza de equipo, 
en un proceso de manufactura, es una variable aleatoria cuya función de densidad 
de probabilidad es: 



f(x) = 



1 

-exp(-jr/5) jc>0, 







para cualquier otro valor. 



Si la pérdida de dinero es igual al cuadrado del número de horas necesarias para lle- 
var a cabo la reparación, se debe determinar el valor esperado de las pérdidas por re- 
paración. 
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En este caso es necesario calcular el valor esperado de una función que se en- 
cuentra relacionada con la variable aleatoria (el tiempo de reparación). Esta función 
es: 

g(x) = jc 2 ; 
por lo tanto: - N 

E[g(X)] = í g(x)f(x)dx =4 f x 2 exp(-x/5)dx. 

J -■* 5 Jo 

Para evaluar integrales de este tipo en donde el integrando es un producto de una po- 
tencia por una exponencial negativa sobre la recta de los reales positivos, es mejor 
emplear la función matemática: 



(ai) = u"~' exp( -«)</«, ai>0, 
Jo 



T(ai) = h"-' exp( -«)</«, ai>0, (3.4) 

Jo 

que se conoce como función gama del argumento n. Algunas propiedades de esta 
func ; ón son: 

1. T(ai + 1) = n\ si ai es un entero positivo; 

2. T(ai + 1) = nF(n), n > 0; 

3. r(i/2) = y/ñ. 

De acuerdo con lo anterior, para evaluar la integral 

E[g(X)] = \ í x 2 exp(-x/5)dx, 
5 Jo 

en (3.4) es u = x/5; en otras palabras, x 5u dx = 5du. Entonces: 

E[g(X)] = l -j o x 2 exp(-x/5)dx = | J o (5«) 2 exp( - u)5du 

= 25 u 2 exp(-u)du 
Jo 

= 25r(3) 

= 50, 

50 es el valor esperado de la pérdida por reparación. 

Ejemplo 3.7 Un inversionista dispone de $100 000.00 para una inversión de un 
año. El inversionista está considerando dos opciones: colocar el dinero en el merca- 
do de valores, lo que le garantiza una ganancia anual fija del 15% y un plan de inver- 
sión cuya ganancia anual puede considerarse como una variable aleatoria cuyos 
valores dependen de las condiciones económicas que prevalezcan. Con base en la. 
historia pasada del segundo plan, un analista muy confiable ha determinado los po- 
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sibles valores de la ganancia y calculado sus probabilidades, como se muestra en la 
tabla 3.4. Con base en la ganancia esperada ¿cuál de los dos planes debe seleccionarse? 

Si se escoge el primer plan, colocar el dinero en el mercado de valores, la ganan- 
cia anual que producen $100 mil será de $15 mil, dado que esta es fija y su valor es 
del 15%. Para el segundo plan, sea A* la variable aleatoria que representa la ganan- 
cia. Con la definición 3.7, se tiene: 

E(X) = (0.3X0.2) + (0.25)(0.2) + - + (0.05)(0.05) = 0.205. 

De acuerdo con lo anterior, el segundo plan es una elección mucho mejor puesto que 
ofrece una ganancia esperada de $20 500. Sin embargo, el lector debe ser cauteloso 
en este punto, dado que el valor de $20 500 es únicamente un valor esperado y el in- 
versionista no tiene ninguna garantía de que su ganancia real se encuentre cercana a 
este valor. 

A continuación se enunciarán y demostrarán algunas propiedades importantes 
de la esperanza de una variable aleatoria. Se usará el caso continuo, a pesar de que 
estas propiedades también son válidas para variables aleatorias discretas. Sea Auna 
variable aleatoria continua con una función de densidad de probabilidad ./(*). 

1 . El valor esperado de una constante c es el valor de la constante. 

E(c) = J_^cf(x)dx = cj_J(x)dx = c. 

2. El valor esperado de la cantidad aX + b, en donde a y b son constantes, es el 
producto de a por el valor esperado de x más b. 

E(aX + b) = J_ (ax + b)f(x)dx = a J xf(x)dx + bí f(x)dx 

= aE(X) + b. 

3. El valor esperado de la suma de dos funciones g(X) y h(X) de X es la suma de los 
valores esperados de g{X) y h(X). 

E[g(X) + h(X)] = ¡_JgW + h(x)]f(x)dx 
TABLA 3.4 Valores de la ganancia para el ejemplo 3.7 



Ganancia (%) 


Probabilidad 


30 


0.20 


25 


0.20 


20 


0.30 


15 


0.15 


10 


0.10 


5 


0.05 



3.5 Momentos de una variable aleatoria 67 

= I J(x)f(x)dx + j J{x)f{x)dx 
= E[g(X)] + E[h(X)]. 
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Los momentos de una variable aleatoria X* son los valores esperados de ciertas fun- 
ciones de X. Éstos forman una colección de medidas descriptivas que pueden em- 
plearse para caracterizar la distribución de probabilidad de A' y especificarla si todos 
los momentos de X son conocidos. A pesar de que los momentos de X pueden defi- 
nirse alrededor de cualquier punto de referencia, generalmente se definen alrededor 
del cero o del valor esperado de X. El uso de los momentos de una variable aleatoria 
para caracterizar a la distribución de probabilidad es una tarea muy útil. Lo anterior 
es especialmente cierto en un medio en el que es poco probable que el experimenta- 
dor conozca la distribución de probabilidad. Todas las proposiciones con respecto a 
los momentos se encuentran sujetas a la existencia de las sumas o integrales que las 
definan. 



Definición 3.8 Sea X una variable aleatoria. El r-ésimo momento de X alrededor 
del cero se define por: 

fí' r = E(X r ) = ^ x r p(x) si X es discreta, o 

x 

n' r - E(X r ) = I x r f{x)dx si X es continua. 

El primer momento alrededor del cero es la media o valor esperado de la variable 
aleatoria y se denota por ¿i; de esta manera se tiene que fi\ = ft = E(X). Con 
base en el material del capítulo uno, la media de una variable aleatoria se considera 
como una cantidad numérica alrededor de la cual los valores de la variable aleatoria 
tienden a agruparse. Por lo tanto, la media es una medida de tendencia central. 

Definición 3.9 Sea X una variable aleatoria. El r-ésimo momento central de A' o el 
r-ésimo momento alrededor de la media de X se define por: 

fí r = E(X - fj.) r = ^ (* - n) r p(x) si X es discreta, o 

fjb r = E(X - fjb) r = (x - fi.) r f(x)dx si X es continua. 

* También es apropiado emplear la frase momentos de la distribución de probabilidad de X. 
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El momento central cero de cualquier variable aleatoria es uno, dado que: 

Mo = E(X - /t)° = Eü) = 1. 

De manera similar, el primer momento central de cualquier variable aleatoria es 
cero, dado que: 

Ai, = E(X - /x) = E(X) - m = 0. 
El segundo momento central: 

M 2 = E(X - ti) 2 , 

recibe el nombre de varianza de la variable aleatoria. Puesto que: . 

ti 2 = VaiíX) = E(X - /x) 2 

= E(X 2 -2Xfi + /t 2 ) 

= E{X 2 ) - 2/i 2 + /x 2 

= M2 - f¿, (3.5) 

la varianza de cualquier variable aleatoria es el segundo momento alrededor del 
origen menos el cuadrado de la media. Generalmente se denota por a 2 . La varianza 
de una variable aleatoria es una medida de la dispersión de la distribución de proba- 
bilidad de ésta. Por ejemplo, en el caso continuo si la mayor parte del área por deba- 
jo de la curva de distribución se encuentra cercana a la media, la varianza es pe- 
queña; si la mayor parte del área se encuentra muy dispersa alrededor de la media, la 
varianza será grande. La raíz cuadrada positiva de la varianza recibe el nombre de 
desviación estándar y se denota por <r. A pesar de que cr 2 y a son los símbolos más 
universales para la varianza y la desviación estándar, respectivamente; en este libro 
no se dudará en emplear las notaciones a 2 (X) o Vai\X) para la varianza y <r(X) o 
d.e. (X) para la desviación estándar dada su identificación explícita con la variable 
aleatoria involucrada. Por la misma razón, a veces será necesario emplear la nota- 
ción fJ. r (X) para denotar el r-ésimo momento central de X. 

Es útil notar que la varianza de una variable aleatoria X es invariable; es decir, 
Var(X + b) = Var(X) para cualquier constante b. De manera más general, se de- 
mostrará que Var(aX + b) = a 2 Var(X) para cualesquiera dos contantes a y b. Por 
definición, 

Var(aX + b) = E(aX + bf - E\aX + b) 

= E(a 2 X 2 + 2abX + b 2 ) - [aE(X) + bf 

= a 2 E(X 2 ) + 2abE(X) + b 2 - a 2 E\X) - 2abE{X) - b 2 

= a 2 E(X 2 ) - a 2 E 2 (X) 

= a 2 [E(X 2 ) - E\X)] 

= a 2 Var(X). 
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Una medida que compara la dispersión relativa de dos distribuciones de probabi- 
lidad es el coeficiente de variación, que está definido por: 

V = <t/ii. (3.6) 

El coeficiente de variación expresa la magnitud de la dispersión de una variable alea- 
toria con respecto a su valor esperado. V es una medida estandarizada de la va- 
riación con respecto a la media, especialmente útil para comparar dos distribuciones 
de probabilidad cuando la escala de medición difiere de manera apreciable entre és- 
tas. Por ejemplo, dadas las variables aleatorias Xy Y, supóngase que: 

E(X) = 120, Var(X) = 36; E(Y) = 40, Var{Y) = 16. 

A pesar de que la dispersión de X, por su desviación estándar, es más grande que la de 
Y, en un sentido absoluto, la dispersión relativa de X es menor que la dispersión re- 
lativa de Y, puesto que: 

V x = 6/120 = 0.05, 
pero: 

V r = 4/40 = 0.10. 

Por lo tanto, la distribución de probabilidad de Y muestra una mayor dispersión 
relativa con respecto a la media que la distribución correspondiente a X. 

En este punto, se examinarán los momentos centrales tercero y cuarto de una va- 
riable aleatoria X. Estos momentos centrales proporcionan información muy útil 
con respecto a la forma de la distribución de probabilidad de X. A pesar de que 
pueden considerarse momentos de orden superior, su utilidad para caracterizar una 
distribución de probabilidad es mucho menor que la de los primeros cuatro momen- 
tos. El tercer momento central 

¿t 3 = E(X - fji)\ (3.7) 

está relacionado con la asimetría de la distribución de probabilidad de X. Ya se de- 
mostró que el segundo momento central (la varianza) puede expresarse en términos 
de los primeros dos momentos alrededor del cero. De hecho, cualquier momento 
central de una variable aleatoria X puede expresarse en términos de los momentos de 
ésta, alrededor del cero. Por definición: 

H, = E(X - M y, 
pero la expansión de (X — ¡í) r puede expresarse como: 



(X-fiY= 2 (-!)''- 



tr-i 



Ya que la esperanza de una suma es igual a la suma de las esperanzas, se tiene que: 
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En particular, 






M3 = M3 ~ 3/A/X2 + 2yx 3 



(3.8) 



Para las distribuciones de probabilidad que presentan un solo pico, si /x 3 < 0, se 
dice que la distribución es asimétrica negativamente; si ¿i 3 > 0, la distribución es 
asimétrica positivamente; y si /x 3 = 0, la distribución recibe el nombre de simétrica. 
Sin embargo, a menos que la distribución presente un solo pico, el conocimiento de 
fij, no es suficiente para tener una idea de la forma de la distribución. Aun así, el 
tercer momento central puede dar resultados erróneos, dado que depende de las uni- 
dades en las que se mide la variable aleatoria X. Para estos casos, una medida más 
apropiada de la asimetría, es el tercer momento estandarizado, dado por; 



«3 = M3/(M2) 



3/2 



(3.9) 



que recibe el nombre decoeficiente de asimetría. El coeficiente a 3 es la medida de la 
asimetría de una distribución de probabilidad con respecto a su dispersión. Una dis- 

* En ocasiones, será necesario identificar a la variable aleatoria explícitamente, con el propósito de evitar 
ambigüedades. 




a) 





c) 



FIGURA 3.7 Funciones de densidad de probabilidad típicas de distribuciones: a) asimétrica 
positivamente, b) asimétrica negativamente y c) simétrica. 
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tribución de probabilidad es asimétrica positiva, negativa o simétrica si a 3 > 0, a 3 
< 0, o a 3 ■ = respectivamente, como se muestra en la figura 3.7. Nótese que si la 
distribución de probabilidad de una variable aleatoria A" es simétrica, todos los mo- 
mentos centrales de X de orden impar serán cero, dado que cada valor positivo de 
{X - n) r se cancela por un valor negativo de la misma magnitud y de igual proba- 
bilidad. 

El cuarto momento central, 



H< = E{X - ti) 4 

= fi' 4 - 4 fi. fx.'j + 6 /U.V2 ~ 3 (i 4 , 



(3.10) 



es una medida de qué tan puntiaguda es la distribución de probabilidad y recibe el 
nombre de curtosis. Al igual que para el tercer momento, es preferible emplear 
el cuarto momento estandarizado, 



a A = fijfil, 



(3.11) 



como una medida relativa de la curtosis. Si a 4 > 3, la distribución de probabilidad 
presenta un pico relativamente alto y recibe el nombre de leptocúrtica; si a A < 3, la 
distribución es relativamente plana y recibe el nombre de platicúrtica; y si a 4 = 3, 
la distribución no presenta un pico muy alto ni muy bajo y recibe el nombre de me- 
socúrtica. Los tres tipos de distribuciones se encuentran ilustrados en la figura 3.8. 




a) 





b) 



c) 



FIGURA 3.8 Funciones de densidad de probabilidad típicas de distribuciones: a) leptocúrti- 
cas, b) platicúrticas y c) mesocúrticas 
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El valor de tres se emplea como una referencia debido a que en la práctica la curtosis 
estandarizada de una distribución de probabilidad se compara con la de una distri- 
bución ampliamente utilizada, conocida como distribución normal, cuyo valor es 
tres. La distribución normal se estudia con gran detalle prosteriormente. 

Los momentos estandarizados tercero y cuarto, también se conocen como los 
factores de forma primero y segundo, respectivamente, de la distribución de proba- 
bilidad debido a que, en gran medida, determinan la forma de la distribución de pro- 
babilidad. 

Ejemplo 3.8 Dos vendedores de seguros de vida, A y B, visitan de ocho a 12 clien- 
tes potenciales por semana, respectivamente. Sean X y Y dos variables aleatorias 
que representan el número de sendos seguros vendidos por A y B, como resultado de 
las visitas. Con base en una gran cantidad de información pasada, las probabilida- 
des para los valores de Xy Y son las siguientes: 



P(x) 



0.02 



0.09 



0.21 



0.28 



0.23 



0.12 



0.04 



0.01 



y 





1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


11 


12 


P(y) 


0.06 


0.21 


0.28 


0.24 


0.13 


0.05 


0.02 


0.01 


















Comparar y contrastar las distribuciones de probabilidad de X y Y empleando sus 
medias, varianzas y factores de forma. 

Con base en la definición 3.8, los primeros cuatro momentos de X alrededor del 
cero son: 

¡jl = (0) (0.2) + (1) (0.09) + ••• + (8)(0) = 3.18 

M2 = (0) 2 (0.02) + (1) 2 (0.09) + ••• + (8) 2 (0) = 12.06 

MÍ = (0) 3 (0.02) + (1) 3 (0.09) + - + (8) 3 (0) = 51.12 

Ht = (0) 4 (0.02) + (1) 4 (0.09) + - + (8) 4 (0) = 235.86. 



Al emplear las expresiones 3.5, 3.8 y 3.10, respectivamente, se determina que Var(X) 
= 1.95, fij(X) = 0.3825 y ti A (X) = 10.565. Los primeros dos factores de forma de 
la distribución de probabilidad de A' se obtienen empleando (3.9) y (3.11), respecti- 
vamente, y son aj (X) = 0.1405 y a 4 (X) = 2.78. 

Con el mismo procedimiento, los primeros cuatro momentos de Y alrededor 
del cero son m = 2.45, fi' 2 = 8.03, fi' 3 = 31.25 y ^ = 138.59. De esta mane- 
ra Var(Y) = 2.03, n¿Y) = 1.6418, fi¿Y) = 13.4504, a,(Y) = 0.5676, y 
a 4 (Y) = 3.26. 

A primera vista, parece existir muy poca diferencia entre las distribuciones de A" 
y y con respecto a la media y la varianza, pero la distribución de y tiene un sesgo positi- 
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vo más grande que la de X. Ademas, la distribución de X es platicúrtica (a 4 < 3), 
mientras que la de Y es leptocúrtica (a 4 > 3). 

En este momento se considerará el concepto de variable aleatoria estandarizada. Sea 
X cualquier variable aleatoria con media n y desviación estándar a. La cantidad 

Y=(X-n)/a (3.12) 

define una variable aleatoria Y con media cero y desviación estándar uno. Esta va- 
riable aleatoria recibe el nombre de variable estandarizada correspondiente a X. De 
hecho, para cualquier valor particular x de X el valor y = (x - n)/ a indica la des- 
viación del valor x del valor esperado de X en términos de las unidades de la 
desviación estándar. Por ejemplo, si X representa la calificación de una prueba de 
inteligencia, y si E(X) = 100 y VariX) = 100, entonces Y = (X - 100)/ 10 es la va- 
riable estandarizada correspondiente a X. Además, si una persona posee un coefi- 
ciente intelectual de 120, entonces se encontrará a dos desviaciones estándar del coe- 
ficiente intelectual medio. 

El valor esperado de Y es cero, puesto que: 

E \X—±\ = I E{X _ M) = o 
De hecho, puesto queE(Y) = 0, el r-ésimo momento central de yes: 

( x - fi\ r 



ti r (Y) = E(Y r ) = E 



cr 



= - r E(X- nY 

O" 

= M*)/<x'; 

de esta manera se tiene que: 

¡¡.¿Y) = M ,(*)/W*)r /2 - (3.13) 

De (3.13) es evidente que Var(Y) = n 2 (Y) = 1. En particular, nótese que 
a 3 (y) = a 3 (X) y a 4 (Y) = a 4 (X). La estandarización de una variable aleatoria 
afecta a la media y a la varianza, pero no a los factores de forma. 

Ejemplo 3. 9 Considérense las variables aleatorias A" y Y, cuyas funciones de densi- 
dad de probabilidad son 

f 1/30 80«;.v^ 110, 
flx) = 

I para cualquier otro valor 

[ para cualquier otro valor; 
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Determinar y comparar la media, la varianza y los momentos estandarizados tercero 
y cuarto, de X y Y. 

El principal objetivo de este problema es contrastar las distribuciones de proba- 
bilidad de A" y de Y, mediante la comparación de sus cuatro primeros momentos y, 
en alguna medida, proporcionar un análogo teórico de los ejemplos 1.1 y 1 .2. El 
lector puede verificar, de manera fácil, que las distribuciones de probabilidad de A" y 
Kson muy diferentes, graneando las correspondientes funciones de densidad. Como 
se verá, gran parte de la diferencia puede descubrirse a través de las comparaciones 
entre los cuatro primeros momentos de A" y Y. 

Para facilitar los cálculos, sea c, = 1/30 y c 2 =1/10 000. Para la variable aleato- 
ria X: 



rl 10 

E(X) = c, xdx = ^x 2 
Jso 2 



no 
= 95 

80 



TI10 rl5 

Var(X) = c, (jc - 95) 2 dx = c, u 2 du = 75, 

J80 J — 15 

en donde u = x-95ydx = du. Por lo tanto, se tiene que d.e.(X) = 8.66. 
Para los momentos de orden superior: 

rno rl5 

E(X - 95) 3 = c, (jr - 95) 3 dx = c, u 3 du = 

J80 J - 15 



rllO r¡5 

E(X - 95) 4 = c, (x - 95)Vjc = c, u*du = 10 125. 

JSO J - 15 

De acuerdo con (3.9) y (3. 1 1), los factores de forma, primero y segundo, de X son 
a y (X) = 0/(75) 3/2 = y a 4 (X) = 10,125/5,625 = 1.8, respectivamente. La dis- 
tribución de probabilidad de X es simétrica y está centrada alrededor del valor 95, 
tiene una varianza de 75 y una desviación estándar de 8.66, y tiende a ser plana en su 
parte superior. 

Para la variable aleatoria Y: 



E(Y) 



= c 2 y exp( - c 2 y)dy = c 2 \ — u exp( - u) - du = Y(2)/c, = 10 000 

JO J0 f; C 2 

y 

E(Y 2 ) = c : J o y 2 exp(-c 2 y)dy = V(3)/c 2 2 = 2 x 10 8 , 

en donde u = c 2 y y dy = du/c 2 . De esta manera se tiene que Var( Y) = 1 x 10 8 , y 
d.e.(X) = 10 000. Además: 

E(Y } ) = c, J >- 3 exp(-c- 2 y)(/y = Y(4)fc\ = 6 x 10 12 . 
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Con (3.8) y (3.9) se determina que E{Y - 10 000) 3 = 2 x 10 12 , y d.e.(Y) = 
10 000. De manera similar: 

£(K 4 ) = c 2 J o / exp(-c 2 y)rfy = T(5)/c\ = 24 x 10' 6 . 

Con (3. 10) y (3. 11), respectivamente, se obtiene que E(Y - 10 000) 4 = 9 x 10 16 , 
y a 4 (Y) = 9. Puede concluirse que la distribución de Y está sesgada positivamente, 
tiene un pico relativamente alto, una media de 10 000, una varianza de 1 x 10 8 , y 
una desviación estándar de 10 000. 
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A pesar de que la media y la varianza son las principales medidas de tendencia 
central y dispersión, existen otras medidas empleadas comúnmente. Se debe recor- 
dar que en el capítulo uno, la mediana y la moda eran otras medidas útiles de ten- 
dencia central. 

Definición 3.10 Para cualquier variable aleatoria X, se define a la mediana jc 5 de 
X, para ser: 

P(X < jc 05 ) «1/2 y P(X « jco.j) > 1/2 si A' es discreta, o 
P(X =s x 05 ) = 1/2 si A' es continua. 

Si existe uno de estos valores para X, entonces x 05 recibe el nombre de mediana de 
la distribución de X. La mediana es una medida de tendencia central, en el sentido 
de que es el valor para el cual la distribución de probabilidad se divide en dos partes 
iguales. 

Definición 3.11 Para cualquier variable aleatoria X, se define la moda como el 
valor x m de X que maximiza la función de probabilidad, si X es discreta, o la fun- 
ción de densidad si X es continua. 

Si existe uno de estos valores para X, entonces x m recibe el nombre de moda de 
la distribución de X. Si X es continua la moda es la solución de df(x)/dx = si 
d 2 f{x)/dx 2 < 0. Si la segunda derivada es positiva, el valor recibe el nombre de anti- 
moda; éste se encuentra en las distribuciones que tienen forma de U. Si existen 
varios máximos o mínimos, las distribuciones de probabilidad reciben el nombre de 
multimodales. 

De acuerdo con la exposición empírica del capítulo uno, la media de una variable 
aleatoria es generalmente la medida preferida de tendencia central. Sin embargo, en 
algunas situaciones la mediana, y en menor grado la moda, pueden ser medidas de 
tendencia central mucho más apropiadas. Por ejemplo, en distribuciones unimoda- 
les cuya asimetría es grande, el valor esperado de la variable aleatoria puede verse 
afectado por los valores extremos de la distribución, mientras que la mediana no lo 
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estará. Para distribuciones unimodales con asimetría negativa, la mediana es mas 
grande que la media, mientras que lo opuesto es cierto para distribuciones unimoda- 
les con asimetría positiva. Para distribuciones unimodales simétricas, la media, me- 
diana y moda coinciden en valor. 

Ejemplo 3. 10 Sea X una variable alaeatoría que representa el tiempo de duración, 
en horas, de un cierto componente eléctrico. Si la función de densidad de probabili- 
dad de X está dada por 



ñx) = 



— exp(-*/1000) *>0, 

para cualquier otro valor, 



determinar y comparar la media y la mediana. 
La media de A" es: 

£ (*) = 77^ jrexp(-jr/1000)dr = 1000 ucxp(-u)du 
1000 Jo Jo 

= 1000r(2) = 1000 horas, 
en donde x = 1 000« y dx = 1 OOOtfw. La mediana de X es: 

P(X *£ xo. s ) = F(x 05 ) = JL | o °' exp( - jc/1000)dr = 0.5 

= 1 - exp(-xo. 5 /1000) = 0.5. 

Por lo tanto, 

jc .s = - 1000ln(0.5) = 693.15 horas. 

Se puede demostrar que esta función de probabilidad es asimétrica positivamen- 
te, puesto que su coeficiente de asimetría es a 3 = 2. De esta forma, la duración 
media de 1 000 horas se encuentra afectada por los valores de la variable aleatoria en 
los extremos de la distribución. De hecho la probabilidad de que un componente tra- 
baje más que el valor promedio, es de 0.3679 puesto que 

P(X>n)= l - F(n) = 1 - 0.6321 = 0.3679. 

En este caso, el valor de la mediana para el tiempo de duración, 693.15 hr, resulta 
ser una medida más apropiada de tendencia central. 

Además de la varianza, existen otras medidas de dispersión para variables aleato- 
rias como el recorrido interdecil, el recorrido intercuartil y la desviación media, 
como se mencionó en el capítulo uno. Los primeros dos son funciones de los cuanti- 
les de la distribución de probabilidad. La desviación media es el paralelo conceptual 
de la desviación estándar, con excepción de que se emplea el valor absoluto de la di- 
ferencia entre el valor de la variable aleatoria y su valor esperado en lugar del 
cuadrado de ésta. 
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Definición 3.12 Para cualquier variable aleatoria X, el valor cuantil x q de orden q, 
< q < 1 , es el valor de X tal que: 

P(X <x q ) *¡q y P(X =£ or,) 3= q si A" es discreta, o 

P(X ^ Jt„) = q si A" es continua. 

Generalmente los valores cuantiles de una variable aleatoria continua son relati- 
vamente fáciles de determinar. Sin embargo, para variables aleatorias discretas los 
valores cuantiles generalmente se obtienen por interpolación, dado que no siempre 
es posible obtener una solución exacta. 

Los cuantiles utilizados comúnmente son los percentiles, deciles y cuartiles. Los 
percentiles son los puntos que dividen a la distribución de probabilidad en 100 inter- 
valos, cada uno con probabilidad 0.01 ; los deciles y cuartiles son los puntos que dividen 
a la distribución de probabilidad en 10 y cuatro intervalos, cada uno con probabili- 
dad de 0.1 y 0.25, respectivamente. Nótese que la mediana es también el cincuentavo 
porcentil, el quinto decil y el segundo cuartil. 

El recorrido interdecil es la diferencia entre el noveno y primer decil, y el recorri- 
do intercuartil es la diferencia entre el tercer y primer cuartil. De esta manera el 
recorrido interdecil es una medida de la dispersión de la mitad del 80% de la distri- 
bución de probabilidad, en tanto que el recorrido intercuantil refléjala variación de 
la mitad del 50% de la distribución. En ambos casos, al excluir los efectos de los va- 
lores extremos de la distribución, se tiene la capacidad de medir la variabilidad de 
una variable aleatoria alrededor de la mitad de su distribución de probabilidad. 

Los recorridos interdecil e intercuartil, son dos medidas de dispersión que se 
emplean en disciplinas como educación, economía, finanzas e ingeniería. El recorri- 
do interdecil se emplea muchas veces en pruebas educacionales para medir la varia- 
bilidad en el desempeño sin importar los valores por arriba o por debajo de un 10% 
de un valor predeterminado. El recorrido intercuartil se emplea en muchas oca- 
siones, en economía y finanzas, para medir la variabilidad de una variable aleatoria 
alrededor de una porción de su distribución de probabilidad. 

Definición 3.13 La desviación media de una variable aleatoria X es el valor espera- 
do de la diferencia absoluta entre X y su media, y está dado por: 

E\X - ju| = 2 |.v - ju|p(.v) si A" es discreta, o 

toda v 

E\X - ju| = \x - fi\f(x)dx si A" es continua, 

A pesar de que la desviación media es una medida legítima de dispersión, existen dis- 
tribuciones de probabilidad para las que dar un tratamiento analítico es o muy difícil 
o imposible. A pesar de todo y como se ilustró en el capítulo uno, la desviación me- 
dia es una alternativa viable a la desviación estándar como medida de dispersión 
para conjuntos de datos cuyo fundamento se encuentra en evidencia empírica. Debe 
notarse que para distribuciones con valores grandes en sus extremos, el valor de la 
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Ejemplo 3.11 Supóngase que en cierto proceso de llenado, la desviación entre el 
peso verdadero de un recipiente con respecto al valor específico, es una variable 
aleatoria Z, cuya función de densidad de probabilidad está dada por 

f(z) = -J= exp( - ¿-/I) - * < z < *. 
yin 



Determinar la media, la desviación estándar, el recorrido interdecil, el recorrido in- 
tercuartil y la desviación media de Z. 

Como se verá en el capítulo cinco, esta función de densidad es un miembro espe- 
cial de una familia muy útil en las distribuciones que reciben el nombre de familia 
normal o Gausiana. De hecho, la función de distribución acumulativa de Z se en- 
cuentra bien tabulada, como puede observarse en la tabla D del apéndice. Además, 
como se verá posteriormente: 

E(Z) = 0, Var(Z) = 1, y d.e.(Z) = 1. 

Para determinar el recorrido interdecil, los valores cuantiles z 0A y z 09 se en- 
cuentran definidos por: 



1 



"' exp(-/ 2 /2)í/í = 0.1 y — L= "\xp(-t 2 /2)dt = 0.9 

J -■* \/2tt J- x 



y se obtienen de la tabla D*; sus valores son z ., = -1.28 y z 09 = 1.28. El recorri- 
do interdecil es Zo 9 - z 1 = 2.56 En otras palabras, el 80% de todos los reci- 
pientes presentarán una desviación no mayor de 1.28 unidades, en cualquier direc- 
ción del peso especificado. De manera similar, a partir de la tabla D los valores 
cuantiles z .25 y Z0.75 son -0.675 y 0.675 respectivamente. Por lo tanto, el recorrido 
intercuartil es Zo.25 = -0.675 lo.is - Zo.is = 1-35 unidades. 
Puesto que para la desviación mediana E(Z) = 0, se tiene: 



E\Z\ = ^jjz\exp(-z 2 /2)dz 



277 

J o zexp(-z 2 /2)d z 



277 

2 



V5 -«p<-«'/2> 

= 2/V2Í 

= 0.7979 unidades. 

* El uso de la tabla D se explica con mucho detalle en el capítulo cinco. 



I 



desviación media se ve menos afectado que la desviación estándar por la existencia f 

de valores extremos. 
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Nótese que dado que la desviación estándar es uno, el recorrido interdecil es de apro- 
ximadamente 2.56 unidades de la desviación estándar, el recorrido intercuartil es de 
1 .35 unidades de la desviación estándar y la desviación media tiene un valor de apro- 
ximadamente 0.7979 unidades de la desviación estándar. Los resultados anteriores 
son siempre válidos para la familia de distribuciones normales. 

El siguiente ejemplo ilustra una situación teórica, en la que se tiene una distribu- 
ción con algunos valores muy grandes y para la cuál la mediana, el recorrido interde- 
cil y el recorrido intercuartil son medidas de tendencia central y dispersión más apro- 
piadas que la media y la varianza. 

Ejemplo 3.12 Sea X una variable aleatoria cuya función de densidad de probabili- 
dad está dada por: 



/to = 



lx~ U2 exp(-x ,/2 /4) x>0 

o 

para cualquier otro valor. 



Determinar la media, la varianza, la desviación estándar, la mediana, el recorrido 
intercuartil y el recorrido interdecil de X. 

Se deja como ejercicio la gráfica de esta función de densidad de probabilidad y 
verificar que su integral sea igual a uno. El lector no tendrá ningún problema para 
notar que esta función de densidad exhibe un rápido decaimiento hacia el eje hori- 
zontal; teniendo en cuenta esta propiedad, la distribución anterior puede ser apro- 
piada para representar la edad a la que fallece una persona como resultado de las 
enfermedades padecidas en su niñez, como la escarlatina y la difteria (hace una gene- 
ración) y, en mayor frecuencia, la leucemia (en la actualidad). 

El valor esperado de X es: 

E(X) = -J o x ,/2 exp(-x ,/2 /4)dx = -J o 4w exp( - u)32udu = 16r(3) = 32, 

en donde u = x i/2 /4, x = I6u 2 , y dx = 32udu. De manera similar: 

E(X 2 ) = - x 3/2 exp(-x' /2 /4)dx = 256 í u 4 exp(-u)du = 2561^(5) = 6 144. 
o Jo jo 



de manera tal que Var (X) = 5 120 y d.e.(X) = 71.55. 

Para determinar los valores cuantiles, primero se obtendrá la función de distri- 
bución acumulativa: 

i p p"74 

F{x) = - t- U2 exp(-t U4 /4)dt = exp(-u)du = 1 - exp(-x ,/2 /4), 

o JO JO 

en donde u = t 1/2 /4 y dt = 32udu. Por definición, la mediana es el valor jr 05 tal 
que F(x 05 ) = 0.5. Por lo tanto: 
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1 -exp(-x¿ / |/4) = 0.5 
exp(-Jt¿í?/4) = 0.5 
(-*¿5/4).= ln(0.5) 

y 

•x . 5 = [-4 In(0.5)] 2 = 7.6872. 

En otras palabras, el 50% de los valores de X serán menores de 7.6872, a pesar de 
que la media tiene un valor de 32, lo que constituye una diferencia muy grande entre 
los valores de la media y la mediana. Para demostrar cuan inapropiada es la media 
de acornó única medida de tendencia central, considérese la probabilidad de que^T 
sea menor que su valor medio: 

P(X< 32) = F02) = 1 - exp(-32 ,/2 /4) = 0.7569. 

De acuerdo con lo anterior, el valor de 32 para la media difícilmente puede interpre- 
tarse como una medida representativa de tendencia central si la probabilidad de que 
la variable aleatoria exceda el valor de su media es menor de 0.25. 

Los percentiles décimo, 25avo, 75avo y 90avo se determinan encontrando el va- 
lor de x q de las ecuaciones F{x q ) = 0.1, 0.25, 0.75, y 0.90, respectivamente. Por 
lo tanto: 

1 - exp(-x¿ /2 /4) = 0.1 

exp(-xtf/4) = 0.9 

*„., = [-4ln(0.9)] 2 , 

y%, = 0.1776. De manera similar, jr . 25 = [-4 ln(0.75)] 2 = 1.3242, -v 075 = [-4 
ln(0.25)] 2 = 30.7490, yx . 9 = [-4 ln(0.1)] 2 = 84.8304. El recorrido intercuar- 
til de X es x 0J5 - x 025 = 30.7490 - 1.3242 = 29.4248, el recorrido interdecil 
es.ío.9 - *o.i = 84.8304 - 0.1776= 84.6528. Nótese que la desviación estándar de 
Xes, aproximadamente 2.5 veces el recorrido intercuartil y casi tan grande como el re- 
corrido interdecil. Este resultado, junto con los hechos de que el 25% de los valores 
son menores de 1.3242, el 50% es menor de 7.6872 y el 75% menores de 30.49, de- 
muestran que la varianza, y por lo tanto la desviación estándar, son inadecuadas como 
únicas medidas de variabilidad. 



3.7 Funciones generadoras de momentos 

Hasta este momento se han presentado distintas formas para determinar los momen- 
tos de una variable aleatoria dada su distribución de probabilidad. Como método al- 
ternativo se presenta la esperanza de cierta función conocida como función genera- 
dora de momentos. 

Definición 3.14 Sea X una variable aleatoria. El valor esperado de exp(tX) recibe 
el nombre de función generadora de momentos, y se denota por tn x {t). si el valor es- 
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perado existe para cualquier valor de / en algún intervalo - c < t < c en donde c 
es un número positivo. En otras palabras: 

m x (t) = E[exp(tX)] = £ exp(/jc)p(.x) si X es discreta, o 

X 

m*(/) = £[exp(/*)] = J exp(/jc)/(jc)¿r si X es continua. 

Nótese que m x (t) nada más es función del argumento /. Si / = 0, entonces m¡r(0) 
= E{e°) = 1. Si la función generadora de momentos existe, puede demostrarse que 
es única y que determina por completo la distribución de probabilidad de X. En otras 
palabras, si dos variables aleatorias tienen la misma función generadora de momen- 
tos, entonces tienen la misma distribución de probabilidad. Este resultado se utilizará, 
de manera extensa, en el capitulo siete. 

Si la función generadora de momentos existe para -c < t < c, entonces existen 
las derivadas de ésta de todas las órdenes para / = . Lo anterior asegura que m x (t) 
generará todos los momentos de X alrededor del origen. Para demostrar lo anterior, 
se diferencia m x (t) con respecto a /, y se evalúa la derivada en / = 0. Suponiendo 
que pueden intercambiarse los símbolos de diferenciación y esperanza, se tiene: 



dm x U) 
dt 



-£[exp(f*)] 



= £<-[exp(dr)] 



= E [Xexp(tX)} |, = o 
= £(*) = fi. 
Al tomar la segunda derivada y evaluar en / = 0. 



d 2 m x U) 
dr 



dt 



- 2 E [exp(tX)] 



= E\j¡f [exp(/JD] 



E<jl* expí/JQ] 

= ElX 2 exp(tX)]\ l=0 
= E(X 2 ) = p' 2 . 

Al continuar este proceso de diferenciación se puede deducir que se obtiene el 
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d'm x {t) 
dt r 



= ^pE[cxp(tX)] 

= eI^IcxpUX)]] 

= E[X r exp(tX)]\ l=0 
= E(X') = (t' r . 

mismo resultado si se reemplaza la función exponencial por su expansión en serie de 
potencias 

(t 2 X 2 t'X r 

l + tX + — +■■■ + — + 

y se torran las derivadas con respecto a t, evaluando cada una de éstas en t = 0. 
La noción de una función generadora de momentos puede extenderse a otros 
puntos de referencia, además del origen. En particular, se define una función central 
generadora de momentos la que, si existe, generará todos los momentos centrales de 
una distribución de probabilidad. 

Definición 3.15 Sea X una variable aleatoria. El valor esperado de exp[t(X - jx)] 
recibe el nombre de función generadora de momentos central y denota por/w^^ (t), 
si el valor esperado existe para cualquier t en algún intervalo - c < t < c en donde 
c es un número positivo. 

ntx-^t) = £{exp[/(* - ¿i)]} = 2 exp[/(x - fx)]p{x) si X es discreta, o 

x 

m x -¿t) = £{exp[/(A' - ¡x)]} = I exp[/(jc - ix)\f(x)dx si descontinua. 

La comprobación de que mx-nít) genera todos los momentos centrales se deja 
como ejercicio al lector. 

Ejemplo 3.13 Sea X una variable aleatoria con función de densidad de probabilidad 



fi-r) = 



-exp(-jr/0) ¿>0, 

O para cualquier otro valor. 



en donde d es un número mayor que cero. Determinar la función generadora de mo- 
mentos de X. 
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Por definición 



m x (t) = -\ exp(tx)exp(-x/d)dx 

u JO 

6 Jo 



exp 



6 



■nr-' 



dx 



e(i - et) 
= (i -ety'. 



exp 



-,,- - , 



Por lo tanto: 



dm x (t) 
dt 



d 2 m x (t) 
dt 2 



= so - ety 2 



= = E(X), 



= 20 2 (1 - ety 



= le 2 = E(X 2 ). 

dando como resultado, Var(X) = 2d 2 - 2 = O 2 , y así sucesivamente. 
Ejemplo 3.14 Sea X una variable aleatoria discreta con función de probabilidad: 

expí-XJX* 



Pix) = 



x\ 



x = 0, 1,2,... , 



en donde X es un número mayor que cero. Determinar la función generadora de mo- 
mentos de X. 

De acuerdo con la definición se tiene: 

exp(/.r)exp(-X) X' 



m x U) = 2 



xl 



= exp(-X) 2 



[X expíOI* 



Dado que: 



Í ^^ = 1 + A,' + 



xV' 

2! 



+ •■• + 



= exp[X exp(/)]. 
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entonces: 



m x {t) = exp(-A)exp[Aexp(r)]. 



Por lo tanto: 



dm x (í) 
di 



= Aexp(-A)exp(/)exp 

/ = 

= A = E(X). 



A exp(/) 



í=0 
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Ejercicios 

3.1 . Sea X una variable aleatoria que representa el número de llamadas telefónicas que reci- 
be un conmutador en un intervalo de cinco minutos y cuya función de probabilidad está 
dada por p(x) = e^ (3)7*!, x = 0, 1, 2, ... . 

a) Determinar las probabilidades de que X sea igual a 0, 1, 2, 3, 4, 5, 6 y 7. 

b) Granear la función de probabilidad para estos valores de X. 

c) Determinar la función de distribución acumulativa para estos valores de X. 

d) Graficar la función de distribución acumulativa. 

3.2. Sea X una variable aleatoria discreta. Determinar el valor de k para que la función p(x) = 
k/x,x = 1, 2, 3, 4, sea la función de probabilidad de X. Determinar P(l =s X 
«3). 

3.3. Sea X una variable aleatoria continua. 

a) Determinar el valor de k, de manera tal que la función 

kx 1 -Ux«l, 



ftx) 

para cualquier otro valor 

sea la función de densidad de probabilidad de X. 

b) Determinar la función de distribución acumulativa de A 1 y graficar F[x). 

c) Calcular P(X s 1/2) y P(- 1/2 =s X « 1/2). 

3.4. Sea X una variable aleatoria continua. 

a) Determinar el valor de k para que la función 

Aexp(-.r/5) x > 0. 



Ax) 

para cualquier otro valor 

sea la función de densidad de nrobabilidad í)p * 
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b) GraficarA*). 

c) Calcular P(X =£ 5) y P(0 =s X =£ 8). 

d) Determinar F\x) y granearla. 

3.5. La duración en horas de un componente electrónico, es una variable aleatoria cuya fun- 
ción de distribución acumulativa es F(x) = 1 - exp(-jr/100), x > 0. 

a) Determinar la función de probabilidad de X, 

b) Determinar la probabilidad de que el componente trabaje más de 200 horas. 

3.6. La función de distribución acumulativa de una variable aleatoria está dada por 

x < 0, 

F(x) = • 2x - x 1 0<.r<l, 
\ x>\. 

a) Grafícar F\x). 

b) Obtener P(X < 1/2) y P(X > 3/4). 

c) Determinar J{x). 

3.7. Sea X una variable aleatoria que representa el número de clientes que llega a una tienda 
en un periodo de una hora. Dada la siguiente información 



X 


12 3 4 5 


6 7 8 


p(x) 


0.05 0.10 0.10 0.10 0.20 0.25 


0.10 0.05 0.05 



encontrar E(X) y Var(X). 

3.8. Una compañía de seguros debe determinar la cuota anual a cobrarse por un seguro de 
$50 mil para hombres cuya edad se encuentra entre los 30 y 35 años. Con base en las 
tablas actuariales el número de fallecimientos al año, para este grupo, es de 5 por cada 
mil. Si X es la variable aleatoria que representa la ganancia de la compañía de seguros, 
determinar el monto de la cuota anual para que la compañía no pierda, a pesar de tener 
un número grande de tales seguros. 

3.9. La función de densidad de probabilidad de una variable aleatoria X está dada por: 

2(1 - x) 0<x< 1, 



"{. 



para cualquier otro valor 

Determinar: 
a) E(X) b) Var{X) 

3.10. Sea A" una variable aleatoria que representa la magnitud de la desviación, a partir de un 
valor prescrito, del peso neto de ciertos recipientes, los que se llenan mediante una má- 
quina. La función de densidad de probabilidad de X está dada por: 



f(x) = 
Determinar: 



1/10 0<x< 10 

para cualquier otro valor 



a) E(X) c) a¿X) 

b) VariX) d) a 4 (X) 
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3.11. Supóngase que la duración en minutos de una llamada de negocios, es una variable alea- 
toria cuya función de densidad de probabilidad está determinada 

í-exp<-Jc/4) x>0, 
fM = \ 4 

I para cualquier otro valor 

Determinar: 

a) E{X) 

b) Var(X) 
O a,(X) 

d) a¿X) 

e) Refiérase al ejercicio 3.10. Basándose en sus respuestas a las preguntas a, a d del 
problema 3.11, compare las dos distribuciones de probabilidades. ¿Cuál muestra la 
mayor dispersión relativa? 

3.12. La calificación promedio en una prueba de estadística fue de 62.5 con una desviación es- 
tándar de 10. El profesor sospecha que Ji examen fue difícil. De acuerdo con lo ante- 
rior, desea a'ustar las calificaciones de manera que el promedio sea de 70 y la desviación 
estándar de 8. ¿Qué ajuste del tipo aX + b, debe utilizar? 

3.13. Sea X una variable aleatoria con media n y yarianza cr. 

a) Evaluar E(X - c) 2 en términos de fí y cr 2 en donde c es una constante. 

b) ¿Para qué valor de c es E(X - c) 2 mínimo? 

3.14. Con respecto al ejercicio 3.11, demostrar que la variable aleatoria Y = (X - 4)/4 
tiene media cero y desviación estándar uno. Demostrar que los factores de forma, pri- 
mero y segundo, de la distribución de Y son los mismos de la distribución de X. 

3.15. Considéresela función de densidad de probabilidad de A" dada en el ejercicio 3.9. Deter- 
minar la desviación media de A" y compararla con su desviación estándar. 

3.16. Considérese la función de densidad de probabilidad de X dada en el ejercicio 3.10. De- 
terminar la desviación media de X y compararla con su desviación estándar. 

3.17. Supóngase que el ingreso semanal de un asesor profesional es una variable aleatoria 
cuya función de densidad de probabilidad está determinada por: 

í¿exp(-jr/800) x > 0, 
fix) = j «O» 

lo para cualquier otro valor 

a) Determinar los ingresos medios y medianos. 

b) Determinar el recorrido intercuartil. 

c) Determinar el recorrido interdecil. 

d) Determinar la probabilidad de que el ingreso semanal exceda al ingreso promedio. 

3.18. Comprobar que la función generadora de momentos central de una variable aleatoria 
X, genera todos los momentos centrales de X. 

3.19. La función de densidad de probabilidad de una variable aleatoria X está determinada: 

f— ,vexp(-.v/4) .v>0, 
,/t.v) = j l6 

LO para cualquier otro valor 



I 
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a) Determinar la función generadora de momentos de X. 

b) Utilizar la función generadora de momentos para encontrar la media y la varíanza de X. 



3.20. Considérese la función de densidad de probabilidad dada en el ejercicio 3.11. Encontrar 
la función generadora de momentos y utilizarla para comprobar los valores de la media 
y la varianza, determinados en el ejercicio 3.11. 

3.21. Sea X una variable aleatoria discreta con función de probabilidad p(x) x = 0,1,2,...,/;, 
y sean a, b, y c constantes. Demostrar que E(c) = c, E(aX + b) = aE(X) + b,y 
E[g(X) + h(X)\ = E[g(X)\ + E\h(X)\, en donde g(x) y h(x) son funciones deX. ' 

3.22. Para la variable aleatoria discreta del ejercicio anterior, utilizar las definiciones 3.8 y 3.9 
para demostrar que Var(X) = E(X : ) - E\X). 



CAPITULO CUATRO 



Algunas distribuciones 
discretas de probabilidad 



4.1 Introducción 

En el capítulo dos se establecieron algunos principios básicos de probabilidad. En el 
capítulo tres estos principios se aplicaron para definir variables aleatorias y distri- 
buciones de probabilidad asi como para desarrollar sus propiedades generales. En 
los capítulos cuatro y cinco se examinarán con detalle algunas distribuciones especí- 
ficas de probabilidad que han demostrado, empíricamente, ser modelos útiles para 
diversos problemas prácticos. A pesar de ello tales distribuciones presentan un ca- 
rácter teórico en el sentido en que sus funciones de probabilidad o de densidad de 
probabilidad se deducen matemáticamente con base en ciertas hipótesis que se supo- 
nen válidas para los fenómenos aleatorios. La elección de una distribución de proba- 
bilidad para representar un fenómeno de interés práctico debe estar motivada tanto 
por la comprensión de la naturaleza del fenómeno en sí, como por la posible verifi- 
cación de la distribución seleccionada a través de la evidencia empírica. En todo mo- 
mento debe evitarse aceptar de manera tácita una determinada distribución de pro- 
babilidad como modelo de un problema práctico. 

Se examinarán varias distribuciones tanto discretas como continuas. En cada 
caso se expondrán detalladamente las características distintivas de las distribuciones 
particulares de probabilidad y se deducirán o se establecerán sus medias, varianzas, 
factores de forma, y otras medidas descriptivas numéricas. Como se sugirió en el 
capítulo uno, una distribución de probabilidad está caracterizada, de manera gene- 
ral, por una o más cantidades que reciben el nombre de parámetros de la distribu- 
ción. Un parámetro puede tomar cualquier valor de un conjunto dado y, en ese sen- 
tido, define una familia de distribuciones de probabilidad, que tendrán la misma 
función genérica de probabilidad o función de densidad de probabilidad. Se tratarán 
varios tipos de parámetros tales como el conteo, la proporción, la rapidez, la locali- 
zación y la forma. Se adoptarán las letras n y k para referirse a los parámetros de 
conteo, p para la proporción \ para la rapidez, fi para la localización, a y d para 
la escala, y a y ¡3 para la forma. Cuando la presentación sea de una naturaleza muy 
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general y no se esté tratando ningún tipo de parámetro en particular, se empleará 6 
para designar ese parámetro. 

Los parámetros de conteo y de proporción son autoexplicatoríos. Un parámetro 
de rapidez representa la rapidez en que ocurre un evento aleatorio en el tiempo o en 
el espacio. Un parámetro de localización relaciona la función (densidad) de probabi- 
lidad con el origen de la escala de medición, localizándola sobre el eje de las x sin te- 
ner algún efecto sobre su apariencia. La presencia de un parámetro de localización (i 
en la función de probabilidad es siempre de la forma (x - fi). Un parámetro de es- 
cala es una cantidad que relaciona las unidades físicas de la variable aleatoria y de 
esta forma la escala. Un parámetro de escala influye sobre la dispersión de una va- 
riable aleatoria, y de esta forma afecta la apariencia de la función de probabilidad. 
La aparición de un parámetro de escala en la función de probabilidad es de la forma 
x/9. Un parámetro de forma afecta la forma de la función de probabilidad en di- 
verso grado, dependiendo del modelo en particular. A pesar de que en muchas oca- 
siones el parámetro de forma se encuentra en un exponente en la función de probabi- 
lidad, no existe ninguna forma estándar en la que pueda asociarse a x sin importar su 
aparición en la función de probabilidad. 

Se examinarán con detalle cuatro familias de distribuciones de probabilidad 
discreta y se harán comentarios sobre su aplicación. Estas son las distribuciones bi- 
nomial, Poisson, hipergeométrica y la binomial negativa. 
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Es una de las distribuciones discretas de probabilidad más útiles. Sus áreas de aplica- 
ción incluyen inspección de calidad, ventas, mercadotecnia, medicina, investigación 
de opiniones y otras. Se puede imaginar un experimento en el que el resultado es la 
ocurrencia o la no ocurrencia de un evento. Sin pérdida de generalidad, llámese 
"éxito" a la ocurrencia del evento y "fracaso" a su no ocurrencia. Además, sea/; la 
probabilidad de éxito cada vez que el experimento se lleva a cabo y 1 -p la probabili- 
dad de fracaso. Supóngase que el experimento se realiza n veces, y cada uno de éstos 
es independiente de todos los demás, y sea A' la variable aleatoria que representa el 
número de éxitos en los n ensayos. El interés está en determinar la probabilidad de 
obtener exactamente X = x éxitos durante los n ensayos. Las dos suposiciones cla- 
ves para la distribución binomial son: 

1 . La probabilidad de éxito p permanece constante para cada ensayo. 

2. Los n ensayos son independientes entre sí. 

Varios problemas prácticos parecen adherirse razonablemente a las suposiciones 
anteriores. Por ejemplo, un proceso de manufactura produce un determinado produc- 
to en el que algunas unidades se encuentran defectuosas. Si la proporción de unidades 
defectuosas producidas por este proceso es constante durante un periodo razonable y, 
si como procedimiento de rutina, se seleccionan aleatoriamente un determinado núme- 
ro de unidades, entonces las proposiciones de probabilidad con respecto al número de 
artículos defectuosos puede hacerse mediante el empleo de la distribución binomial. 
La publicidad para la venta de un producto también puede considerarse otro ejemplo. 
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Si se supone que la probabilidad de venta es constante para todas las personas, la 
distribución binomial será el modelo de probabilidad adecuado puesto que las perso- 
nas tienen un criterio independiente para comprar. Como ejemplo final, el Centro 
para el Control de Enfermedades tiene, entre sus distintas funciones, la responsabili- 
dad de vigilar las enfermedades transmisibles. Para cumplir con ella, debe examinar la 
propagación de una enfermedad determinada con base en la probabilidad. Es dudoso 
que la probabilidad de contraer una enfermedad transmisible, sea constante para toda 
la población. Sin embargo, para una parte de ésta, por ejemplo las personas que 
tienen una edad determinada, si puede ser constante, de manera tal que la distribución 
binomial puede ser un modelo de probabilidad adecuado. 

Para obtener la función de probabilidad de la distribución binomial, primero se 
determina la probabilidad de tener, en n ensayos, x éxitos consecutivos seguidos de n 
-x fracasos consecutivos. Dado que, por hipótesis, los n ensayos son independientes 
de la definición 2.15, se tiene: 

p ■ p - p ■ (I - p)(\ - p) - (1 - p) = p y (\ - p)'-\ 



x términos (n - x) términos 

La probabilidad de obtener exactamente x éxitos y n - x fracasos en cualquier otro 
orden es la misma puesto que los factores p y (1 - p) se reordenan de acuerdo con el 
orden particular. Por lo tanto, la probabilidad de tener x éxitos y n - x fracasos en 
cualquier orden, es el producto de p x ( 1 - p)"~ x por el número de órdenes distintos. 
Este último es el número de combinaciones de n objetos tomando x a la vez. De 
acuerdo con lo anterior se tiene la siguiente definición: 

Definición 4.1 Sea X una variable aleatoria que representa el número de éxitos en n 
ensayos y p la probabilidad de éxito con cualquiera de éstos. Se dice entonces que X 
tiene una distribución binomial con función de probabilidad.* 

, n \. , P'C ~ P)"- x * = 0,1,2,...,/!, 
pU;n,p) = \^- x)[x] - (4.1) 

para cualquier otro valor. =£ p =s 1 , para n entero. 

Los parámetros de la distribución binomial son n y p. Éstos definen una familia 
de distribuciones binomiales, en donde cada miembro tiene la función de probabili- 
dad determinada por (4.1). Para ilustrar el efecto de estos parámetros, la figura 4.1 
proporciona algunas gráficas de la distribución binomial. Se dará más información 
sobre éstas cuando se discutan los momentos y otras medidas descriptivas. 

El nombre "distribución binomial" proviene del hecho de que los valores de p 
(x; n, p) para* = 0, 1, 2 ... n son los términos sucesivos de la expansión binomial de 
[(I - p) + p\"\ estoes, 

* Para mantener la consistencia, se empleará la notación p{ ) para indicar la función básica de probabili- 
dad. El autor no piensa que el lector se confundirá por el empleo de/? (x; n, p) para la función de probabi- 
lidad binomial y el uso de la letra p para el parámetro de proporción. 
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FIGURA 4.1 Gráficas de la función binomial de probabilidad 



[(!-/>) + pT = U - P)" + "(1 " P)"-'p + " ( " 'N i - P)" 2 P 2 + - + P" 



^ (n - x)\x\ 

n 

= 2) />(*; n, p). 



Pero dado que [(1 - p) + p]" = 1 y p(x; n, p) 2* para* = 0, 1, 2 ... /i, este 
hecho también verifica que p (x; n, p) es una función de probabilidad. 

Para ilustrar el cálculo de probabilidad mediante el empleo de (4.1) sea n = 5 y 
p = 0.4 entonces: 



asi: 



p(x; 5, 0.4) = 

p(0; 5, 0.4) = 
p(l; 5,0.4) = 
P(2; 5, 0.4) = 
p(3;5, 0.4) = 



5! 



(5 - x)lx\ 



5! 



(5 


- 0)!0! 




5! 


(5 


- 1)!1! 




5! 


(5 


- 2)!2! 




5! 



(5 - 3)!3! 



(0.4) J (0.6) W , x = 0, 1,2, 3, 4, 5; 

(0.4)"(0.6) 5 " = 0.0778, 
Í0.4)'(0.6) í_l = 0.2592, 
(0.4) : (0.6) s: = 0.3456, 
(0.4) 3 (0.6) 5 " J = 0.2304. 
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/>(4; 5, 0.4) = _ 5 ^ )¡4! (0.4) 4 (0.6) 5 - 4 = 0.0768, 

P(5\ 5, 0.4) = J' ¡5! (0.4) J (0.6) J - J = 0.0102. 

La probabilidad de que una variable aleatoria AT sea menor o igual a un valor 
específico de x, se determina por la función de distribución acumulativa 

P{X « jc) = F(x; n,p)=2 (fj pW ~ />)""'• (4.2) 

La distribución binomial se ha tabulado de manera extensa para distintos valores 
de n y p, ya sea mediante el empleo de (4.1) o (4.2) o ambas. En la tabla A del apén- 
dice, se proporcionan las probabilidades acumulativas para distintos valores de x, n, y 
p. Pueden determinarse las probabilidades individuales mediante el empleo de esta 
tabla puesto que la variable aleatoria binomial tiene un valor entero, y la propiedad 

p(x; n,p) = F(x; n,p) - F(x - \\n,p) 

se verifica. Para ilustrar el uso de la tabla A, sea n = 10 y p = 0.3. La probabilidad 
de que X pueda ser cuatro es: 

P(X ss 4) = F(4; 10, 0.3) = 0.8497; 
la probabilidad de que X sea mayor de dos es: 

P(X > 2) = P(X ^ 3) = 1 - P(X « 2) = 1 - F(2; 10, 0.3) = 0.6172; 
y la probabilidad de que X sea de exactamente cinco es: 

p(5; 10, 0.3) = F(5; 10, 0.3) - F(4; 10, 0.3) = 0.1030. 
Debe notarse que si n = 1 , la función de probabilidad binomial se reduce a: 

p x (l - p) l ~ x x = 0, I, 
p{x\ p) = i (4.3) 

para cualquier otro valor, 

que es la función de probabilidad de la distribución puntual o de Bernoulli. La 
distribución de Bernoulli recibe este nombre por el probabilista suizo Jacques Ber- 
noulli (1654-1705) quien desarrolló por primera vez el concepto de ensayos indepen- 
dientes. 

Ejemplo 4. 1 Todos los días se seleccionan, de manera aleatoria, 15 unidades de un 
proceso de manufactura con el propósito de verificar el porcentaje de unidades de- 
fectuosas en la producción. Con base en información pasada, la probabilidad de te- 
ner una unidad defectuosa es de 0.05. La gerencia ha decidido detener la producción 



4.2 La distribución binomial 93 

cada vez que una muestra de 15 unidades tenga dos o más defectuosas. ¿Cuál es la 
probabilidad de que, en cualquier día, la producción se detenga? 

Si el modelo apropiado para esta situación es la distribución binomial, se puede 
suponer que las 15 unidades que se seleccionan al día, constituyen un conjunto de 
ensayos independientes de manera tal que la probabilidad de tener una unidad defec- 
tuosa es 0.05 entre ensayos. Sea X el número de unidades defectuosas que se en- 
cuentran entre las 15. Paran = 15 yp = 0.05, la probabilidad de que la producción se 
detenga es igual a la probabilidad de que X sea igual o mayor que dos. De esta ma- 
nera: 

P(X s* 2) = 1 - P(X « 1) = 1 - F(l; 15, 0.05) = 0.1709. 

Ejemplo 4.2 Supóngase que para personas de determinada edad, la probabilidad 
de que mueran por una enfermedad transmisible es 0.001 . ¿Cuántas personas de este 
grupo pueden exponerse a la enfermedad de manera que la probabilidad de que no 
más de una persona muera sea por lo menc3 0.95? 

Para aplicar la distribución binomial a esta situación, la suposición crucial es que 
la probabilidad de muerte es constante para todos los individuos que forman parte 
del grupo y que contraen la enfermedad. Sea X el número de muertes que ocurren en 
n individuos por haber contraído el padecimiento. El valor de n para que la probabi- 
lidad de que X sea menor o igual a uno tenga un valor mayor o igual a 0.95: 

P{X^ 1) = F(\;n, 0.001)^0.95, 
y para la igualdad: 

X (" ) (0.00ir(0.999)"- t = 0.95 

¡Jl (0.001)°(0.999)" + í") (0.001)'(0.999)"- 1 = 0.95 

(0.999)" '(0.999 + O.OOIk) = 0.95. 

Esta ecuación no se resuelve de manera explícita para n; sin embargo, mediante el 
empleo de técnicas iterativas* puede determinarse que el valor entero de n que satis- 
face la ecuación es n = 356. 

En este punto se determinarán los momentos para la distribución binomial. Se 
ilustrarán tanto el método directo, con base en la definición 3.8, como el método in- 
directo, con base en la función generadora de momentos. 



* Una técnica iterativa es un método numérico para resolver una ecuación mediante una sucesión de valo- 
res hasta que el último valor se encuentra muy cercano al que satisface la ecuación. 
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Por la definición 3.8, el primer momento alrededor del cero de la variable aleato- 
ria binomial X es el valor esperado de X, 



x %" (n - x)\x\ 



£ w= É* ,_ \ , ^o -p)" 



2* . "\. , pV - pT 

x=l (n - x)\x\ 



= 2-, £ 777 P*U ' P)"~\ 

en donde se ha escrito la suma desde uno hasta n, dado que cuando x = el primer 
término es cero y se cancela la x del numerador con la x en x!. Factorizando nyp,se 
tiene: 

Si y = x ~1 y m = n-\, entonces: 

m . 

W) = n P 2 Ví^ 1 - Py~ y - 

,-o('" - v)!y! 

Pero p(y; m, p) = [m!/(m - y)ly\]p y (l - p) m ~ y es la función de probabili- 
dad de una variable aleatoria binomial y con parámetros m = n - 1 yp; de esta ma- 
nera £™ =0 p(y; m, p) = 1, y la media de una variable aleatoria binomial es: 

E{X) = /i = np. (4.4) 

Para obtener la varianza, se necesita el segundo momento alrededor del cero, (¿2, 
o: 

n 

E(x 2 )= 2* 2 p U;«,p); 

x = 

pero, en el término x ¿ /x ! se cancelará una sola x en el numerador, y la que resta evi- 
tará que la suma se manipule de la misma forma en que se determinó la media. La al- 
ternativa es escribir x 1 como: 

-v 2 = x(x - 1) ' + x\ 
de esta manera se tiene: 

E(X 2 ) = E[X(X - 1)] + E(X). (4.5) 

Dado que E(X) ya se ha determinado, puede usarse el mismo procedimiento para 
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evaluar E[X(X - 1)]: 

E[X(X - 1)] = Z x(* ~ 1) "" 



t = 



(n - x)\x\ 



pV ~ p)"~ 



x = 2 

= 2 



«• 



i \ 



;P*(1 -/>)" 



-t = 2 



(« - x)!(* - 2)! 



(n - *)!*! 

P x (\ - pT 



= "(" - DP 2 ¿ . ( " w 2)! 9 „ ^" 2 (l " P) n ~ x 
fZ 2 (n - x)\{x - 2)! 

Nótese que en los pasos anteriores se escribió la suma a partir de dos porque los dos 
primeros términos son cero, se canceló x(x - 1), y se factorizó n(n - X)p 2 . Sea 
y = x - 2 y m = n — 2; entonces: 



E[X(X - 1)] = n(n - \)p 2 £ W - d\\ - p) 

y = (m - y)\y\ 

m 

= n(n - l)p 2 2 P(y,m,p) 
= n(n - \)p\ 



De (4.5) 



E(X 2 ) = n' 2 = n(n - l)p 2 + np. 

De esta manera, la varianza de una variable aleatoria binomial es: 
Var{X) = n' 2 - M 2 

= /j(/i - l)p 2 + np - /i 2 p 2 
= np [(n - l)p + 1 - np] 
= np{l - p). 



(4.6) 



Este método general puede extenderse para determinar los momentos de orden 
superior. Por ejemplo, para obtener el tercer momento alrededor del cero, se deter- 
mina E[X(X - l)(X - 2)] dado que: 

E[X(X - 1)(X - 2)]* = M3 - 3/iJ + 2/i. (4- 7 ) 

De manera similar, para el cuarto momento alrededor del cero se evalúa E[X{X - 1 ) 
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(X - 2){X - 3)] dado que: 

E[X(X - \){X - 2)(X - 3)]* = M ; - 6/*J + 1 1/*2 - 6/i. (4.8) 

Para una variable aleatoria binomial: 

E[X(X - l)(X - 2)] = 2 x(x - l)(x - 2) . "\,, PV - P)"- X 

-f-^-v. t ( „^ 3) , p-'o-p)- 

= «(« - !)(« - 2)p 3 2 , / "\, , P v (l - P)" - ' 
;r (w - y)!y! 

= /!(/! - 1)(/I - 2) P 3 . 

Mediante el empleo de (4.7), 

>á - 3/l¿2 + 2/Li = n(/z - I)(/i - 2)p 3 

ju.; = /i(/i - l)(/z - 2)p 3 + 3[/i(« - l)p : + np] - 2np 

= n(n - !)(«- 2)p 3 + 3/z(" - l)p 2 + np. (4.9) 

El tercer momento central fi } puede determinarse por (3.8), 
pi 3 = /i(i - l)(n - 2)p } + 3n(n - \)p 7 + np - 3np[n(n - \)p 2 + np] + 2n 3 p } , 
la que, después de un poco de álgebra, se reduce a: 

/* 3 = np(\ - p)(\ - 2p). (4.10) 

Por lo tanto, de (3.9) el tercer momento estandarizado de la distribución binomial es: 

np(\ - p)(l - 2p) 



<*i 



[np(\ - p)] i/2 

np{\ - p)(\ - 2p) 
np(\ - p)[np(\ - p)Y n 

1 ~ 2p 
[np(\ - p)] l/2 " 



(4.11) 



* Expresiones como éstas dan lo que se conoce como momentos factoriales. De hecho, el /--ésimo momen- ¡ 

to factorial de una variable aleatoria X es E[X(X - \)(X - 2) ■■■ (X - r + l)|. j 

\ 
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Para «1 cuarto momento alrededor del cero, se tiene: 

E[X(X - l)(X - 2)(X - 3)] = 2 x(x - l)(x - 2)(x - 3) . 

p*(l - p) n -' 



(n - x)\xl 



= n(n - l)(n - 2)(n - 3)p 4 



^ : — p o - ?y~ x 

= n(n - 1)(* - 2)(n - 3)p 4 

•S , m ' v , p y (i-p) m ' y 

>= (m - y)!y! 

= «(/i - l)(/i - 2)(n - 3)p 4 . 
Sustituir en (4.8) y para resolver /x 4 , se tiene: 

HÍ = n(n - l)(/i - 2)(/i - 3)p 4 + 6[/i(/i - l)(/i - 2)p 2 

+ 3/i(/i - l)p 2 + np] - \l[n(n - \)p 2 + np] + 6np. (4.12) 
De acuerdo con (3.10), el cuarto momento central es: 
/x 4 = /x 4 - 4/x/x; + 6/í 2 /í2 - 3/x\ 
el que, después de una sustitución adecuada y un poco de manipulación algebraica, es 
/x 4 = np(\ - p){3np(\ - p) + [1 - 6p(l - p)]}. (4.13) 

De acuerdo con (3. 1 1), el cuarto momento estandarizado de la distribución binomial 
es: 

np{\ - p) {3np(l - p) + [1 - 6p(l - p)]} [1 - 6p(l - p)] 

o, 4 = __ = 3 + — . (4.14) 

n P (1 - p) /ip(l - p) 

Las propiedades básicas de la distribución binomial se encuentran resumidas en 
la tabla 4.1. Nótese que la media de una variable aleatoria binomial es el producto 
del número de ensayos y la probabilidad de éxito en cada uno de éstos y la varianza 
es el producto de la media por la probabilidad de tener un fracaso. La varianza de 
una variable aleatoria binomial siempre es menor que el valor de su media. 
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TABLA 4.1 Propiedades básicas de la distribución binomial. 
Función de probabilidad 



Parámetros 



n\ 



x = 0, 1, 2, ..., n 



n, entero positivo 
p, « p « 1 



Media 



Varianza 



Coeficiente de 
sesgo 



Curtosis relativa 



\-2p 



np 



np(\ - p) 



[np(\ - p)] 



1/2 



3 + 



[1 - 6p(l - p)] 
np(\ - p) 



Para obtener una mejor perspectiva de la distribución binomial y de su forrea, c " 
calcularán a 3 y a A para distintos valores del parámetro o, de acuerdo con la tabla 
4.2. Puede concluirse a partir de ésta, que la distribución binomial es simétrica si p 
= 1/2, con sesgo positivo si p < 1/2, y sesgada negativamente si p > 1/2. Para 
los últimos dos casos, el sesgo se vuelve menos evidente conforme n es más grande. 
Además, la distribución binomial es relativamente plana s\p - 1/2. Para cualquier 
otro valor de/;, la distribución binomial presenta un pico relativamente grande. Sin 
embargo, si n es grande a 4 tiende a tres para cualquier valor de p y la distribución 
es mesocúrtica. 

De acuerdo con la definición 3.14, la función generadora de momentos para la 
distribución binomial es: 

m x (t) = E(e' x ) = 2 e" "\ , p x {\ ~ p)"' x 
^=0 \fi x).x. 



,=o(rt - *) ! * ! 
= (1 - p) n + n{\ - P y-\e'p) 

+ ^(i-p)"-Vp) 2 +- + (e' P y 

= [(1 - p) + e'pf. 



(4.15) 



TABLA 4.2 Factores de forma de la distribución binomial para distintos valores de p 



P = 1/10 

8 

3\/ñ 



P = 1/2 



p = 9/10 



oía 



3 + 



46 
9n 



3 + 



3vn 
46 



9/i 
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Al tomar las dos primeras derivadas de (4.15) con respecto a t, se tiene: 
dm x (t) 



dt 



= ne'p[(l - p) + e'p] 



'_!"-! 



d 2 m x (t) 
dt 2 



n(n - \)(e'p) 2 [(l - p) + e'p]"- 2 + ne'píd - p) + e'p] 



Si t = 0, se obtienen los momentos primero y segundo alrededor del cero, 
dm x (t) 



dt 



np[(\ - p) + PT 



np 



d 2 m x (t) 
di 2 



= ■«(« - \)p 2 [{\ - p) + p]"- 2 + np[(l - p) + p\- x 



r = 



= n(n - \)p + np, 

que son idénticos a los determinados mediante el empleo del método directo. Los 
momentos de orden superior pueden determinarse mediante la continuación de este 
proceso de diferenciación y al evaluar la derivada en t = 0. Nótese que para este 
caso los primeros dos momentos alrededor del cero se obtienen de manera más fácil 
empleando la función generadora de momentos que tiene el método directo. Sin em- 
bargo, esto no ocurre en general. 

Ejemplo 4.3 Un club nacional de automovilistas comienza una campaña telefónica 
con el propósito de aumentar el número de miembros. Con base en experiencia pre- 
via, se sabe que una de cada 20 personas que reciben la llamada se une al club. Si en 
un día 25 personas reciben la llamada telefónica ¿cuál es la probabilidad de que por 
lo menos dos de ellas se inscriban al club? ¿Cuál es el número esperado? 

Puesto que una de cada 20 personas se suscriben al club, p = 0.05. Además, si se 
supone que las 25 personas constituyen un conjunto de ensayos independientes (una 
suposición muy razonable en este caso) con una probabilidad constante/? = 0.05 de 
suscribirse al club, y si la variable aleatoria A' es el número, de entre n = 25, que ter- 
mina suscribiéndose al club, la probabilidad deseada es: 

P{X^2) = 1 - P{X^ 1) = 1 - F(l;25,0.05) = 0.3576. 
Mediante el empleo de (4.4), el valor esperado de X es E(X) = (25)(0.05) = 1 .25. 



I 
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4.3 La distribución de Poisson 

Llamada así en honor de Simeón Denis Poisson, probabilista francés del siglo xix. 
quien fue el primero en describirla, es otra distribución discreta de probabilidad 
muy útil en la que la variable aleatoria representa el número de eventos independien- 
tes que ocurren a una velocidad constante. Muchos eventos aleatorios ocurren de 
manera independiente con una velocidad constante en el tiempo o en el espacio. Al- 
gunos ejemplos típicos son el número de personas que llegan a una tienda de auto- 
servicio en un tiempo determinado, el número de defectos en piezas similares para el 
material, el número de bacterias en un cultivo, el número de solicitudes de seguro 
procesadas por una compañía en un periodo específico, etc. De hecho, la distribu- 
ción de Poisson es el principal modelo de probabilidad empleado para analizar 
problemas de líneas de espera. Además, ofrece una aproximación excelente a la fun- 
ción de probabilidad binomial cuando p es pequeño y n grande. La deducción de la 
función de probabilidad de Poisson se desarrolla en un apéndice que se encuentra al 
final de este capítulo. 

Definición 4.2 Sea X una variable aleatoria que representa el número de eventos 
aleatorios independientes que ocurren a una rapidez constante sobre el tiempo o el 
espacio. Se dice entonces que la variable aleatoria X tiene una distribución de Pois- 
son con función de probabilidad. 



p(x; X) = - 



é? _ V 



x\ 







x = 0, 1,2, ...; X >0, 



para cualquier otro valor. 



(4.16) 



El parámetro de la distribución de Poisson es X, el número promedio de ocurren- 
cias del evento aleatorio por unidad de tiempo. Para valores mayores que cero, X defi- 
ne una familia de distribuciones con una función de probabilidad determinada por 
(4.16). En la figura 4.2 se proporcionan algunas gráficas de la función de probabili- 
dad de Poisson, para distintos valores de X : 



FIGURA 4.2 Gráficas de la función de probabilidad de Poisson 
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Puede verificarse que (4.16) es una función de probabilidad, puesto que 
p(x; \)> para* = 0, 1, 2.. .y 

s x=Q x=0 X - 

= e~ k \ 1 + A + ^ + ■ 



= e"V 



= 1. 
Para ilustrar, sea A = 1.2; entonces 



í>- |2 1.2< 



A»(x; 1.2) = - — , jt = 0,1,2 

x\ 

De esta forma se tiene 

e"'- 2 1.2 e"'- 2 1.2 4 

p(0; 1.2) = A , = 0.3012, p(4; 1.2) = 4 , = 0.0260, 

. ... e''- 2 1.2 s 

p{\; 1.2) =■ rr — = 0.3614, p(5; 1.2) = 5 , = 0.0062, 





0! 


e~ 


'■ 2 1.2' 




1! 


e~ 


,2 1.2 2 




2! 


e~ 


12 1.2 3 



p(2; 1.2) = - 9 ;" = 0.2169, />(6; 1.2) = g J' 2 = 0.0012, 

. . .. e-'- 2 1.2 7 

p(3; 1.2) = — = 0.0867, />(7; 1.2) = ?¡ = 0.0002. 

A pesar de que puede continuarse este proceso sin finalizar, nótese que las proba- 
bilidades individuales son más y más pequeñas conforme la variable aleatoria toma 
valores cada vez más grandes. Ésta es una característica general de la distribución de 
Poisson. 

La probabilidad de que una variable aleatoria de Poisson X sea menor o igual a 
un valor de x se determina por la función de distribución acumulativa. 

'" p~ k \' 
P(X^x) = F(x;\) = E-^T- < 4 - 17 ) 

; = o '• 

En la tabla B del apéndice, se encuentra tabulada (4.17) para distintos valores dex y 
A. Nótese de nuevo que la variable aleatoria de Poisson tiene un valor entero, y que 
pueden usarse los valores de las probabilidades acumulativas de la tabla B para de- 



102 Algunas distribuciones discreías de probabilidad 

terminar las probabilidades individuales mediante el empleo de la relación: 

p(x;\) = F(x;\)-F(x- 1;X). 

A continuación se dan varios ejemplos del empleo de la tabla B. Sea X = 2.5. 
La probabilidad de que X sea menor que tres es: 

^ X "= * ;' ' Y *"■' P(X < 3) = P(X =s 2) = F(2; 2.5) = 0.5438; 



■Y 



la probabilidad de que X sea mayor que cuatro es: 



M 



P(X s* 4) = 1 - P(X*¿ 3) = 1 - F(3; 2.5) = 0.2424; 
y la probabilidad de que X tome el valor de dos está dada por: o. 

p(2; 2.5) = F(2; 2.5) - F(l; 2.5) = 0.2565. " / 



Ejemplo 4.4 Después de una prueba de laboratorio muy rigurosa con cierto compo- 
nente eléctrico, el fabricante determina que en promedio, sólo fallarán dos componen- 
tes antes de tener 1 000 horas de operación. Un comprador observa que son cinco los 
que fallan antes de las 1 000 horas. Si el número de componentes que fallan es una 
variable aleatoria de Poisson, ¿existe suficiente evidencia para dudar de la conclu- 
sión del fabricante? 

La duda en estadística puede apoyarse en términos de la probabilidad. Si un 
evento debe o no ocurrir bajo ciertas condiciones, su ocurrencia se decide en térmi- 
nos de la probabilidad del evento bajo esas condiciones. Si la probabilidad de 
ocurrencia es pequeña y el evento ocurre, entonces se puede preguntar, con justifica- 
ción, por las condiciones. Al mismo tiempo debe tenerse en mente que un valor de 
probabilidad pequeño no impide la ocurrencia del evento, a menos que este valor sea 
cero. En dicho caso, se tiene que X = 2. Se supone que la frecuencia con que 
ocurren las fallas es constante e igual a dos por cada mil horas o un promedio de 
1/500 unidades por hora. La probabilidad de que fallen cinco componentes en mil 
horas es: 

e~ 2 2 5 
p(5;2) = — = 0.0361, 

y la probabilidad de que por lo menos fallen cinco en 1 000 horas es: 

} ^ P(X^5) = 1 - F(4;2) = 0.0527. 

Ambas probabilidades son, de manera relativa, pequeñas. Esto es, si el número 
de fallas en mil horas está descrita de manera apropiada por la distribución de Pois- 
son con una frecuencia constante de dos, existe una probabilidad de observar exac- 
tamente cinco unidades defectuosas de 0.0361 y una probabilidad de 0.0527 de ob- 
servar por lo menos cinco en el mismo periodo de operación. Sin embargo, antes de 
tomar cualquier medida en contra del fabricante, es necesario contestar algunas pre- 
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guntas. Por ejemplo, ¿es la frecuencia de falla constante e igual a dos durante mil 
horas? Aun si lo anterior fuese cierto, ¿es el medio de operación el mismo bajo el 
cual el fabricante hizo sus pruebas? Esto es, ¿es posible tener factores extraños, 
introducidos de manera inadvertida, que estén causando un número tan alto de 
fallas? Las preguntas anteriores sólo pueden constestarse con una comprensión 
completa de la situación. 

. \ - 

Ejemplo 4.5 Considérese el juego de fútbol que se efectúa entre los 28 equipos que 
constituyen la Liga Nacional de Fútbol (NFL). Sea la variable aleatoria de interés el 
número de anotaciones — seis puntos (touchdowns) — de cada equipo por juego. 
Con el presente número de anotaciones por equipo en la temporada de 1979, ¿existe 
alguna razón para creer que el número de anotaciones es una variable aleatoria de 
Poisson? 

Para contestar a esta pregunta, se compararán los resultados observados con los 
que se esperarían si el número de anotaciones fuese una variable aleatoria de Pois- 
son, como se muestra en la tabla 4.3. La cuarta columna indica la probabilidad teó- 
rica para cada uno de los valores que aparecen en la primera columna, suponiendo 
que el número de anotaciones es una variable aleatoria de Poisson. 

Los valores de la cuarta columna se determinan con el cálculo del valor del pará- 
metro X de la distribución de Poisson y la evaluación de la función de probabilidad 
(4. 16) para los valores de la columna uno. El valor de \ se obtiene sumando los pro- 
ductos de las correspondientes posiciones de la primera y tercera columnas, 

k = (0X0.0781) + (1X0.22IO) + ••• + (7X0.0067) 
= 2.435 



TABLA 4.3 Distribución del número de anotaciones de seis puntos por equipo y por juego 
en la NFL, durante la temporada de 1979 





Número de 






Número 


Número de 


veces 


Frecuencia 


Probabilidad 


esperado de 


anotaciones 


observadas 


relativa 


teórica 


ocurrencias 





35 


0.0781 


0.0876 


39.24 


1 


99 


0.2210 


0.2133 


95.56 


2 


104 


0.2321 


0.2597 


116.34 


3 


110 


0.2455 


0.2108 


94.44 


4 


62 


0.1384 


0.1283 


57.48 


5 


25 


0.0558 


0.0625 


28.00 


6 


10 


0.0223 


0.0254 


11.38 


7* 


3 


0.0067 


0.0124 


5.56 


Totales 


448 


0.9999 


1.0000 


448 



* En realidad, esta cifra representa siete o mas anotaciones, pero su ocurrencia es definitivamente escasa 
en la NFL. 



:# 
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lo que representa el números promedio de anotaciones por equipo y por juego. Las 
probabilidades puntuales se calculan mediante el empleo de: 

p(x; 2.435) = ¡ x = 0, 1, 2 

xl 

Éstos son los primeros siete renglones de la cuarta columna. El último renglón es la f 

probabilidad de que X sea mayor o igual a siete. Los renglones de la última columna 
se encuentran multiplicando cada renglón de la columna cuatro por 448. 

La comparación de las columnas dos y cinco, o de las columnas tres y cuatro, re- 
vela una concordancia muy razonable. Por lo tanto, puede concluirse que el número 
de anotaciones es una variable aleatoria de Poisson. Que la variable aleatoria sea del 
tipo Poisson, se basa en que el número de anotaciones por equipo y por juego en la 
NFL es un conjunto de eventos aleatorios independientes, de manera que la frecuen- 
cia de anotación es constante durante los 60 minutos del juego. La frecuencia de 
anotación puede ser más constante en la NFL como consecuencia de la calidad del 
juego y del oponente que en el fútbol colegial. 

La distribución de Poisson también es una forma límite de la distribución bino- 
mial cuando n —> » y /? -» de manera que no permanece constante. Este resul- 
tado se obtiene mediante el siguiente teorema, formulado por Simeón Poisson. 

Teorema 4.1 Sea X una variable aleatoria con distribución binomial y función de 
probabilidad: 

p(x; n,p) = ^—- P V - p) tt - r x = 0, I, 2, ... n. 

(n - x)'x\ 

Si para n = 1, 2 ... la relación p = k/n es cierta para alguna constante k > 0, en- 
tonces: 

e~ K k< 

lím p(x;n,p) = — — , x = 0,1,2 

„^« x\ 

La prueba del teorema 4. 1 se proporciona en un apéndice al final del capítulo. 

En el contexto del teorema 4. 1 , la distribución de Poisson se piensa como aquélla 
en la que la variable aleatoria puede tomar valores distintos (n es grande pero las 
probabilidades son pequeñas) y — p = k/n tiene un valor cercano a cero. Como 
resultado, la función de probabilidad de Poisson se emplea de manera extensa para 
aproximar la función de probabilidad binomial cuando n es, de manera relativa, 
grande y p pequeño, de manera tal que X = np tiene un valor moderado. En la tabla 
4.4. se ilustra la mejoría en la aproximación Poisson de la función de probabilidad 
binomial conforme n crece y p decrece tal que X = np permanece constante e igual 
a dos. 

Ejemplo 4. 6 Un comprador de grandes cantidades de circuitos integrados ha adop- 
tado un plan para aceptar un envío de éstos y que consiste en inspeccionar una 
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TABLA 4.4 ; Comparación de las probabilidades binomial y de Poisson 









Binomial 




de Poisson 


X 


p(x\ 10, 0.2) 


p{x; 20, 0.1) 


p(x; 40, 0.05) 


p(x; 100, 0.02) 


P(x;2) 





O.I074 N 


0.1216 


0.1285 


0.1326 


0.1353 


1 


0.2684 


0.2702 


0.2706. 


0.2707 


0.2707 


2 


0.3020 


0.2852 


0.2777 


0.2734 


0.2707 


3 


0.2013 


0.1901 


0.1851 


0.1823 


0.1804 


4 


0.0881 


0.0898 


0.0901 


0.0902 


0.0902 


5 


0.0264 


0.0319 


0.0342 


0.0353 


0.0361 


6 


0.0055 


0.0089 


0.0105 


0.0114 


0.0120 


7 


0.0008 


0.0020 


0.0027 


0.0031 


0.0034 


8 


0.0001 


0.0004 


0.0006 


0.0007 


0.0009 


9 


0.0000 


0.0001 


0.0001 


0.0002 


0.0002 



muestra aleatoria de 100 circuitos provenientes del lote. Si el comprador encuentra 
no más de dos circuitos defectuosos en la muestra, acepta el lote; de otra forma, lo 
rechaza. Si se envía al comprador un lote que contiene 1 % de circuitos defectuosos, 
¿cuál es la probabilidad de que éste sea aceptado? 

Sea X la variable aleatoria que representa el número de circuitos defectuosos en- 
contrados en una muestra de 100 y supóngase que atiene una distribución binomial. 
En otras palabras, se supone que los 100 circuitos seleccionados del lote constituyen 
100 ensayos independientes, de manera tal que la probabilidad de tener un circuito 
defectuoso es constante e igual a 0.01 . La probabilidad de aceptar el lote es la misma 
de X con valor menor o igual a dos. Dado que n = 100 es relativamente un valor 
grande y p = 0.01 es pequeño; la probabilidad binomial puede aproximarse median- 
te la distribución de Poisson, escogiendo X = np = 1 : 

P( aceptación) = P(X =£ 2) = F P *(2; 1) = 0.9197. 

Debe notarse por comparación que si se empleara la distribución binomial se 
tendría: 

P(X =s 2) = F B *(2; 100, 0.01) = 0.9206. 

Los momentos de la variable aleatoria de Poisson se determinan mediante los 
mismos procedimientos utilizados para obtener los momentos de la variable aleatoria 
binomial. Si X es una variable aleatoria de Poisson, su valor esperado es: 



.V! 



= e 



Er 



X a 



(.v - I)! 



* Se emplean ios subíndices para distinguir entre las dos funciones de distribución. Se emplearán las mis- 
mas marcas para distinguir entre dos funciones de probabilidad, cuando sea necesario. 
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" a*-' 



x*-*2 



x-,.U- D! 

* x v 
= Xf- x 2--¡. y = x- \ 



Para la varianza A': 



(4.18) 



£W*- i)] = 2 xa- i) 



= xv k 2 x 



jc! 

-2 



Entonces, de (4.5): 



y la varianza de X es: 



,= 2 a-2)¡ 

= X 2 . (4.19) 

E(X 2 ) = n' 2 = X 2 + X, 

Var(*) = ^ - /x 2 

= X 2 + X - X 2 

= X. (4.20) 

De esta manera, una característica distintiva de la variable aleatoria de Poisson es 
que su media es igual a su varianza. 

El ejercicio para el lector es que demuestre que, para el tercer momento central, 
se tiene: 

E[X(X - l)(X - 2)] = X 3 . (4.21) 

Mediante el empleo de (4.7): 

Hi = X 3 + 3X 2 + X, 
y el tercer momento central es: 

/x 3 = X. 
Como resultado, el coeficiente de asimetría se determina por: 

«3 = ^/V>i n = 1/Vx. (4.22) 
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Para el cuarto momento central puede emplearse el mismo procedimiento para 
demostrar que: 

E\X(X - l)(X - 2)(X - 3)] = X 4 , (4.23) 

y de (4.8): 

MÍ = X 4 + 6X 3 + 7X 2 t X. (4.24) 

Mediante el empleo de (3.10) el cuarto momento central es: 

/i 4 = 3X 2 + X, 
y el cuarto momento estandarizado para la distribución de Poisson lo establece: 



«4 = V-JÁ = 3 + -. 



(4.25) 



Se proporciona un resumen de las propiedades de la distribución de Poisson en la 
tabla 4.5. La distribución de Poisson se encuentra sesgada positivamente para cual- 
quier valor X > 0, pero la asimetría disminuye para valores relativamente grandes 
de X. Además, la distribución de Poisson es leptocúrtica, puesto que a 4 es mayor 
que tres, pero tiende a convertirse en mesocúrtica para valores grandes de X. 

La función generadora de momentos para la distribución de Poisson se determi- 
na por: 



-k\X 






= e-2 



(ke'Y 



= e~ x e Xe ' 



= exp [X(e' - 1)]. 



(4.26) 



TABLA 4.5 Propiedades básicas de la distribución de Poisson 
Función de probabilidad 



Parámetro 



p(x; k) = 






x = 0, 1,2, 



Media 



Varianza 



Coeficiente 
de asimetría 

1 

Vi 



K > 



Curtosis relativa 



3 + 



108 Algunas distribuciones discretas de probabilidad 

Nótese que, como se esperaba: m x (0) — e M, ~ l) = 1. El ejercicio para el lector es 
demostrar que (4.26) da los momentos de la variable aleatoria de Poisson después de 
llevar a cabo el proceso de diferenciación apropiado. 

En conclusión, la distribución de Poisson es leptocúrtica con un sesgo positivo y 
se emplea para modelar el número de eventos aleatorios independientes que ocurren 
a una rapidez constante ya sea sobre el tiempo o el espacio. Se ha empleado de mane- 
ra extensa para el estudio de línea de espera, confiabilidad y control de calidad. Es | 
también una forma limite de la distribución binomial y la aproxima de manera ade- 
cuada para valores grandes de n y pequeños dep. Sin embargo, debe aplicarse cuida- 
dosamente la distribución de Poisson a situaciones en las que las condiciones de in- 
dependencia y rapidez constante de ocurrencia son dudosas. 

Por ejemplo, considérese la distribución del número de infracciones recibidas por 
los automovilistas en un periodo de diez años. Puede argumentarse que la distribu- 
ción de Poisson es el modelo de probabilidad adecuado, pues la probabilidd de reci- 
bir una infracción en un día cualquiera es pequeña y ha.? muchos días en diez años. 
Sin embargo, no es común que las condiciones de independencia y rapidez constante 
sean válidas. La independencia es dudosa debido a que si un automovilista en parti- 
cular recibe una infracción, es razonable pensar que manejará de manera más cuida- 
dosa. En grupos de distinta edad esta frecuencia puede variar, ya que las compañías 
aseguradoras sostienen que los conductores de mayor edad respetan más los límites 
de velocidad que los conductores jóvenes. 



4.4. La distribución hipergeométrica 

Para establecer las condiciones básicas que llevan a otra distribución discreta de pro- 
babilidad conocida como hipergeométrica, considérese el siguiente problema: sea TV el 
número de representantes de un determinado estado que asisten a una convención 
política nacional, y sea k el número de los que apoyan al candidato A, mientras 
que el resto N ~ k apoya al candidato B. Supóngase que una organización informativa 
selecciona aleatoriamente a n representantes y les pregunta sus razones para apoyar 
a los candidatos. Si X es una variable aleatoria que sustituye el número de represen- 
tantes en la muestra que apoyan al candidato A, ¿cuál es la función de probabilidad 
de .Y? 

Esta situación parece ser binomial porque entre N representantes de un estado 
existen dos grupos distintos con probabilidad k/Ny (N ~k)/N. Sin embargo, consi- 
dérese con más detalle el proceso de selección para la muestra de n representantes. 
Es razonable suponer que se selecciona un representante, se le preguntan sus razones 
y no vuelve a ser seleccionado. * El resultado es que no existe independencia entre la 
selección de un representante y el siguiente. Por ejemplo, supóngase que el primer 
representante seleccionado apoya al candidato A. Entonces quedan N - 1 represen- 
tantes de los cuales k ~ 1 apoya a A. Por lo tanto, la probabilidad condicional de que 



* Esto se conoce como muestreo sin reemplazo y es una condición fundamental para la distribución hi- 
pergeométrica. En la distribución binomial, se supone que el muestreo se hace con reemplazo, aseguran- 
do la independencia y la probabilidad constante. 



! ? 
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el siguiente candidato apoye también a A es (k - \)/{N - 1) y no k/N, y la probabili- 
dad condicional de que el siguiente representante apoye a B es (N -k)/(N - 1) y no 
(N-k)/N. 

Para determinar la probabilidad de que, de maneras exacta, se seleccionen x 
representantes que apoyen a A y n - x que apoyen a B, se procederá de la siguiente 
forma: el número de maneras distintas en que puede seleccionarse una muestra de n 
representantes de un total de N es O ; y cada muestra tiene una probabilidad de selec- 
ción igual a 1/C). De manera similar, la selección de x personas que apoyen a A es 
un evento que puede ocurrir de (í ) maneras distintas, y la selección de (n -x) repre- 
sentantes que apoyen a B es un evento que puede suceder de C„ ~- k x ) maneras. El nú- 
mero total de maneras en que ambos eventos pueden ocurrir es (* )(^ Z *) . De esta 
forma, la probabilidad de seleccionar x representantes que apoyen al candidato A es 

(i)(?:í 

P(x) = 






Definición 4.3 Sea Nel número total de objetos en una población finita, de mane- 
ra tal que k de éstos es de un tipo yN-kde otros. Si se selecciona una muestra alea- 
toria* de la población constituida por n objetos de la probabilidad de que x sea de un 
tipo exactamente y n - x sea del otro, está dada por la función de probabilidad hi- 
pergeométrica: 

r/ k\¡N - A 

n-xj x = 0,1,2 n; x « k, n - x =£ N - k; 

/v\ N, n, k, enteros positivos, (4.27) 

.0 para cualquier otro valor 



p(x\ N, n, k) = 



Los parámetros de la distribución hipergeométrica son N, n, y k. Éstos definen 
una familia de distribuciones con función de probabilidad determinada por (4.27). 
En la figura 4.3 se muestran algunas gráficas de (4.27) para distintas combinaciones 
de N, n, y k. 

La función de probabilidad (4.27) de la distribución hipergeométrica y la función 
de distribución acumulativa, definida por: 

'k\ (N - k 



i ) \n — i 
P(X « x) = F(x; N, n, k) = £ '-, < 4 - 28 ) 

V 



* Véase el capítulo siete para la definición de una muestra aleatoria. 
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FIGURA 4.3 Gráficas de la función hipergeométrica de probabilidad 



se encuentra tabulada en [4] para valores de N, n, y k desde N = 2, « = 1 hasta Af 
= 100 y « = 50. Una parte de éstas se encuentra en la tabla C del apéndice. El cálcu- 
lo de las probabilidades hipergeométricas puede convertirse en tedioso, especialmen- 
te si n es grande. Sin embargo, puede simplificarse si se emplea la siguiente fórmula 
de reclusión, 



p(x + 1;7V, n, k) = 



(n - x)(k - x) 



p(x;N,n,k), (4.29) 



(x + 1)(N - k- n + x + 1) 
la cual se puede obtener directamente de la función de probabilidad hipergeométrica. 



Ejemplo 4. 7 Supóngase que se tienen 50 representantes de cierto estado, a una con- 
vención política nacional, de ios cuales 30 apoyan al candidato A y 20 al candidato B. 
Si se seleccionan aleatoriamente cinco representantes, ¿cuál es la probabilidad de 
que, entre estos cinco, por lo menos dos apoyen al candidato A? 

Sea X la variable aleatoria que representa el número de personas en la muestra 
que apoyan a A. Para N = 50, n = 5, y k = 30, la función de probabilidad de X está 
dada por: 

p(.v;50, 5,30) = , x = 0, 1, ..., 5, 

50 

x 5 

y la probabilidad de que X s* 2 es: 



P(X ^ 2) = 1 - P{X =s 1) = i - [p{0; 50, 5, 30) + p{\ ; 50, 5, 30)]. 
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Dado que: 



3 o°)(?) (?) 

p(0; 50, 5, 30) = = = 0.007317, 



;?) 



y, de (4.29): 



piU 50 ' 5 ' 30) S + iX^-T-l^o+i) ^ 50 ' 5 ' 30) = 0068597 ' 

se encuentra que: 

P(*ss 2) = 1 - (0.007317 + 0.068597) = 0.9241. 

Un área muy fructífera en aplicaciones para la distribución hipergeométrica es 
el control estadístico de calidad y la aceptación de muestreo. En este contexto sea N el 
número de unidades en un lote, de las cuales k se encuentran defectuosas. Si se selec- 
ciona una muestra aleatoria del lote formada por n < N unidades, la probabilidad 
de que la muestra contenga x unidades defectuosas se determina mediante el empleo de 
la función hipergeométrica de probabilidad (4.27). En aceptación del muestreo, la 
razón de que sólo se seleccione la muestra de un lote obedece más bien a restricciones 
de tiempo y dinero. La decisión de cuándo aceptar o rechazar un lote se basa, de ma- 
nera general, en el número de artículos defectuosos encontrados en él. Estos concep- 
tos se tratarán con gran detalle en el capítulo once. 

Ejemplo 4.8 Considérese un fabricante de automóviles que compra los motores a 
una compañía donde se fabrican bajo estrictas especificaciones. El fabricante recibe 
un lote de 40 motores. Su plan para aceptar el lote consiste en seleccionar ocho, de 
manera aleatoria, y someterlos a prueba. Si encuentra que ninguno de los motores 
presenta serios defectos, el fabricante acepta el lote; de otra forma lo rechaza. Si el 
lote contiene dos motores con serios defectos, ¿cuál es la probabilidad de que sea 
aceptado? 

Sea X el número de motores defectuosos en la muestra. Para N = 40, n = 8, y k 
= 2, la probabilidad de aceptación es 



P(0; 40, 8, 2) 



l u 8 



= 0.6359. 



De esta manera el lote 40 tiene una probabilidad menor de 2/3 de ser aceptado si 
contiene dos motores defectuosos. Debe notarse que la esencia del control 
estadístico de calidad es la mejoría de la calidad del producto. Si un vendedor sabe 
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que su producto pasará por una selección que verifica la calidad del producto, puede 
poner en marcha en su propia fábrica un control de calidad intencionado con el pro- 
pósito de minimizar el número de lotes rechazados. Por lo tanto, es razonable supo- 
ner que esta práctica dará como resultado un producto de calidad superior. 

¿Qué pasa con la distribución hipergeométrica si el tamaño de la muestra n es 
sólo una pequeña fracción de un lote de tamaño N relativamente grande? Supóngase 
que se envía un lote de 2 mil unidades de las cuales 40 se encuentran defectuosas. Si 
se selecciona una muestra de 50, sin reemplazo, la probabilidad de que el primer ar- 
tículo seleccionado se encuentre defectuoso es de 40/2 000 = 0.02. La probabilidad 
condicional de que el segundo artículo también se encuentre defectuoso dado que el 
primero lo fue, es 39/1 999 = 0.0195. A pesar de que estas probabilidades no tienen 
el mismo valor, puede argumentarse, desde un punto de vista práctico, que la diferen- 
cia es insignificante. Es por esta razón que en muchas ocasiones se emplea la distri- 
bución binomial para aproximar a la distribución hipergeométrica cuando el cocien- 
te n/N es pequeño. 

Si la proporción de artículos defectuosos en el lote es p = k/N, puede escribirse 
la función de probabilidad hipergeométrica como: 

f Np\ÍN - Np^ 
x J\ n - x 

p H (x; N, n, p) = - — : (4.30) 

N 
n 

Puede demostrarse entonces que 

lím p H (x; N, n, p) = p B {x; n, p), 

en donde p B (x; n, p) es la función de probabilidad binomial. De esta forma la 
distribución hipergeométrica tiende a la binomial con parámetros n y p/k/N confor- 
me el Cociente n/N se vuelve más pequeño. De manera general, la función de probabi- 
lidad binomial aproximará de manera adecuada a (4.30) si se tiene que n < 0.1 /V. 
En la tabla 4.6 se proporcionan algunas comparaciones entre las probabilidades bi- 
nomial e hipergeométrica conforme el cociente n/N disminuye. 

Ejemplo 4.9 Un fabricante asegura que sólo el 1% de su producción total se en- 
cuentra defectuosa. Supóngase que se ordenan 100 artículos y se seleccionan 25 al 
azar para inspeccionarlos. Si el fabricante se encuentra en lo correcto, ¿cuál es la 
probabilidad de observar dos o más artículos defectuosos en la muestra? 

Sea X el número de artículos defectuosos en la muestra. Entonces X es una va- 
riable aleatoria hipergeométrica con parámetros N = 1 000, n = 25, y k = Np = 
(1 000)(0.01) = 10. Dado que el cociente n/N es, de forma considerable, menor de 
0. 1 , puede emplearse la distribución binomial para aproximar la probabilidad deseada: 

P(X^2) = \ - P(X^\) = \ - /•„(!: 25, 0.01) = 0.0258. 



I 
*• 
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TABLA 4.6 Comparación entre los valores de probabilidad binomial o hipergeométrica 
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en donde F B (\; 25, 0.01) es la función de distribución acumulativa binomial. A 
continuación se analizará el proceso de decisión para este problema. La probabili- 
dad de tener dos o más artículos defectuosos en la muestra es muy pequeña. Supón- 
gase que se observan dos o más artículos defectuosos; entonces el proceso de decisión 
relativo al lote debe hacerse con base en la probabilidad. Esto es, si se supone que las 
condiciones son verdaderas, se ha observado algo que sólo tenía una oportunidad de 
2.5% de ocurrir. Por otro lado, si la aseveración del fabricante no es cierta y la pro- 
porción de artículos defectuosos es del 3%, entonces la probabilidad de observar dos 
o más defectuosos es 

P(X^2) = 1 - F(l;25,0.03) = 0.1720, 

que es un valor más plausible a la luz de la evidencia actual que es de 0.0258. De esta 
forma, si se observan dos o más artículos defectuosos de entre los 25, se debe recha- 
zar el lote. 

Para determinar la media de la distribución hipergeométrica se sigue un procedi- 
miento análogo al empleado para la distribución binomial. Si la función de probabi- 
lidad está dada por (4.27), 
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pero puede demostrarse que: 



CH( 



N (N - 1 
n \n - 1 



o: 



Entonces: 



NI 



N 



(N- 1)! 



(N - nV.nl n l(N - n)l(n - 1)! ' 



E(X) = k X 



k - l\ÍN - k 
x — íl\n — x 



i N ÍN - í\ 
n\n-l) 



nk" U- 1 



SiAf=N-l,r = *-l,í 






yv ; 



n - 1 

1 y y = x - l, 

m/M - /• 

* - y 



(4.31) 



la suma es igual a uno dado que es la suma de una función de probabilidad hipergeo- 
métrica con parámetros M, s, y r. Nótese que si p = k/N, la media de la variable 
aleatoria hipergeométrica es la misma que la de la variable aleatoria binomial. 

Con el mismo procedimiento puede demostrarse que la varianza de una distribu- 
ción hipergeométrica es: 



Si p = k/N y (1 



VariX) 


nk(N - 

~ N 2 


k) 


(N - n) 
(N - 1) 


p) = (N 


- k)/N, 






Vnr(Y) 


- ,m(\ - 


n) 


ÍN - n\ 



(4.32) 



\N - 1/ 
La varianza de una variable aleatoria hipergeométrica es más pequeña que la corres- 



pondiente a la variable aleatoria binomíal por un factor de (/V - n)/(N — 1). Sin 
embargo, si N es grande al compararse con n, este factor se encontrará cercano a 
uno, dando como resultado una varianza prácticamente igual a la binomial. El resul- 
tado anterior era de esperarse ya que si n es sólo una pequeña fracción de un lote de 
tamaño N, la distribución hipergeométrica tiende a la distribución binomial. 

La determinación del coeficiente de asimetría y la curtosis relativa para la distri- 
bución hipergeométrica sigue el mismo procedimiento dado para la distribución bi- 
nomial. Estas cantidades se dan en la tabla 4.7. Nótese que para /V > 2, si /V < 2A 
o si N < 2/2, la distribución hipergeométrica se encuentra sesgada negativamente. 
Si yv = 2k o si N = 2/2, es simétrica. Si N > 2k y N > 2/2, la distribución se 
encuentra sesgada positivamente. El lector puede consultar [2] para la función gene- 
radora de momentos. Debe notarse que la función generadora de momentos repre- 
senta un trabajo muy tedioso para determinar los momentos. La tabla 4.7 propor- 
ciona un resumen de la información más importante para esta distribución. 



4.5 La distribución binomíal negativa 

Sea un escenario binomial en que se observa una secuencia de ensayos independien- 
tes; la probabilidad de éxito en cada ensayo es constante e igual ap. En lugar de fijar 
el número de ensayos en/iy observar el número de éxitos, supóngase que se conti- 
núan los ensayos hasta que han ocurrido exactamente k éxitos. En este caso, la va- 
riable aleatoria es el número de ensayos necesarios para observar k éxitos. Esta si- 
tuación lleva a lo que se conoce como la distribución binomial negativa. 



TABLA 4.7 Propiedades básicas de la distribución hipergeométrica 
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(i , A x = O, 1,2, ... 

( íí , )p*n -/* * = i,2",... 

V ' 0«p«l, (4.34) 



,0 para cualquier otro valor 



La distribución se llama "binomial negativa" debido a que las probabilidades 
dadas por (4.34) corresponden a los términos sucesivos de la expansión binomial de: 

1 1 -P 

P P 

Los parámetros de la distribución binomial negativa son kyp,en donde k no ne- 
cesita ser un entero. Si es así, la distribución se conoce como distribución de Pascal, 
misma que se interpreta como el tiempo que hay que esperar para que ocurra el k 
éxito. Si k no es entero, la función de probabilidad dada por (4.34) se escribe de ma- 
nera tal que se involucre a la función gama, 



1t 
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1 

La determinación de la función de probabilidad sigue el mismo tipo de razona- 
miento empleado para obtener las funciones de probabilidad de las distribuciones 
binomial e hipergeométrica. Se desea determinar la probabilidad de que en el n- 
ésimo ensayo ocurra el ^-ésimo éxito. Si se continúan los ensayos independientes 
hasta que ocurre el ¿-ésimo éxito, entonces el resultado del último ensayo fue éxito. 
Antes del último ensayo, habían ocurrido k — \ éxitos en n - 1 ensayos. El número 
de maneras distintas en las que pueden observarse k - 1 éxitos en n - 1 ensayos es: f 

(l Z ¡). Por lo tanto, la probabilidad de tener k éxitos en n ensayos con el último { 

siendo un éxito, es: 

p(n; k, p)=(" k Z\) P*0 - P)"~ k n = k,k+\,k + 2 (4.33) 

La expresión (4.33) es la función de probabilidad de lo que se conoce como la 
distribución de Pascal. Mediante el empleo de (4.33) puede obtenerse la distribución 
binomial negativa sustituyendo n = x + k en (4.33), en donde x es el valor de una 
variable aleatoria que representa el número de fracasos hasta que se observan, de ma- 
nera exacta, k éxitos. 

Definición 4.4 Sea X + k, el número de ensayos independientes necesarios para 
alcanzar, de manera exacta, k éxitos en un experimento binomial en donde la proba- 
bilidad de éxito en cada ensayo es/?. Se dice entonces que X es una variable binomial 
negativa con función de probabilidad 



t 



\{k + x) . x = 0. 1,2. ... .. ... f 

' (x: *'' ) = -rfTfltr p(l ~' r *>o. o*„*i. (4J5) i 

En este contexto la distribución binomial negativa es un caso particular de la distri- 
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bución de Poisson compuesta. Una distribución compuesta de una variable aleatoria 
X es aquella que depende de un parámetro que a su vez es una variable aleatoria con 
una distribución dada. En el capítulo seis se plantea este problema para la distribu- 
ción binomial negativa. 

Debe notarse que si k = 1 en (4.34), surge un caso especial de la distribución bi- 
nomial negativa, que se conoce con el nombre de distribución geométrica y cuya 
función de probabilidad está dada por 



p(x; p) = p(l - pf 



x = 0,l,2 O^p^l. 



(4.36) 



La variable aleatoria geométrica representa el número de fallas que ocurren antes de 
que se presente el primer éxito. En la figura 4.4 se ilustran varias gráficas de la fun- 
ción de probabilidad binomial negativa (4.34) para varios valores de k y p. 

En la referencia [6] se encuentra una extensa tabla de probabilidades individual y 
acumulativas para la distribución binomial negativa. Es posible emplearla distribu- 
ción binomial para obtener las probabilidades de la distribución binomial negativa. 
Puede demostrarse que si X es una variable aleatoria binomial negativa con función 
de probabilidad dada por (4.34), entonces: 

P{X^x) = P(Y^k), 



en donde Yes una variable aleatoria binomial con parámetros n = k + x y p. Esto 
es: 



F NB (x;k,p) = 1 - F B (k ~ 1 ; k + x, p), 



(4.37) 



en donde F NB (x; k, p) es la distribución binomial negativa acumulativa y F B (k - 
1; k + x, p) es la distribución binomial acumulativa. Mediante el empleo de (4.37) 
puede determinarse las probabilidades individuales de la distribución binomial negati- 
va. Por ejemplo, 
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FIGURA 4.4 Gráficas de la función de probabilidad binomial negativa 
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P(X = x) = F NB (x; k, p) - F NB (x - l;k, p) 

= [\-FJLk-\\k + x,p)) - [ 1 - F B (k - 1; k + x - \,p)) 

= F B (k -l;k + x-l,p)- F B (k -l;k + x,p)\ (4.38) 

Para ilustrar el uso de (4.37) y (4.34), sea k = 2 y p = 0.5 en (4.34): 

p NB {x; 2, 0.5) = (x + 1)(0.5) 2 (0.5)\ x = 0, 1, 2, ... . 

La probabilidad de que X « 3 es 

P(X*¿3) = F„ s (3; 2, 0.5) = 1 - F B (l; 5, 0.5) = 0.8125; 

la probabilidad de que X = 2 es 

P(X = 2) = Fa(l; 3, 0.5) - F B (1; 4, 0.5) = 0.1875; 

y la probabilidad de que X > 1 es 

P(Z > 1) = P(X 5= 2) = 1 - F m V ; 2, 0.5) 

I / O; 4 1- = ' " [1 -W 3 ' - 5 )] 

-; >' =0.5. 

La aplicación primaria de la distribución binomial negativa es una alternativa 
adecuada para el modelo de Poisson cuando la frecuencia de ocurrencia no es cons- 
tante sobre el tiempo o el espacio. También se emplea de manera frecuente para mo- 
delar las estadísticas de accidentes, datos psicológicos, compras del consumidor y 
otras situaciones similares en donde la frecuencia de ocurrencia entre grupos o indi- 
viduos no se espera que sea la misma. Por ejemplo, las estadísticas de accidentes au- 
tomovilísticos indican de manera consistente que los conductores jóvenes tienen 
más accidentes que los de más edad, y que los hombres tienen un mayor número de 
accidentes que las mujeres. Desde este punto de vista no debe tomarse la distribución 
binomial negativa en términos de cuántos ensayos se necesitan para alcanzar un de- 
terminado número de éxitos. Más bien, debe considerarse como el número de 
ocurrencias en el tiempo o en el espacio cuando la frecuencia de éstas no es constan- 
te. Para una aplicación en particular, veáse la referencia [1]. 

Los momentos de una variable aleatoria binomial negativa pueden determinarse al 
obtener los momentos factoriales, como se hizo para las distribuciones binomial, de 
Poisson e hipergeométrica. También es posible obtener la media, la varianza, el coe- 
ficiente de asimetría y la curtosis relativa a partir de las expresiones dadas por (4.4), 
(4.6) y (4.14) respectivamente. Puede demostrarse que si estas expresiones reempla- 
zan los parámetros binomiales n, (1 - p) y p con las cantidades-/:, \/p y -(1 - p)/p, 
respectivamente, se obtendrán los momentos binomiales negativos deseados. De 
acuerdo con lo anterior, si A' es una variable aleatoria binomial negativa con función 
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de probabilidad dada por (4.34): 
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,,C 2 - 


6p 
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6) 



k(l - p) 



(4.39) 
(4.40) 
(4.41) 
(4.42) 



En la tabla 4.8 se proporciona la información más útil para la distribución bino- 
mial negativa. A partir de esta tabla son evidentes algunas propiedades básicas de tal 
distribución. La varianza es más grande que la media en forma permanente, así 
como la distribución presenta un sesgo positivo y es leptocúrtica puesto que a 4 
siempre es más grande que tres, pero a 4 —* 3 conforme k -* <*. 

Ejemplo 4.10 En un artículo de R. Pollard (véase la referencia [5]) se demuestra 
que el número de anotaciones de seis puntos por equipo en el fútbol colegial se des- 
cribe de manera apropiada mediante una distribución binomial negativa. La tabla 
4.9 contiene información muy semejante a la que aparece en la tabla 4.3. Para deter- 
minar de manera teórica la probabilidad de ocurrencia, es necesario tener estima- 
ciones de los valores de los parámetros ky p. Dado que la media y la varianza de una 
variable aleatoria binomial negativa están dadas por (4.39) y (4.40) respectivamente, 
se resuelve para k y p y se obtiene: 



E(X) 
Var{XY 



k = 



EVO 



Var(X) - E{X) 



TABLA 4.8 Propiedades básicas de la distribución binomial negativa 


: : 


Función de probabilidad 




Parámetros 


x = 0, 1,2, ... 


- pY 


k, k > (distribución de Pascal si 
k es un entero positivo) 

p, =s p « 1 


í í 
« ,1 


Media Varianza 




Coeficiente Curtosis 
de asimetría relativa 


■ 


k(\ - p) k(\ - p) 




2 - p (p 2 - 6p + 6) 


11 


P ' P 2 


[«1 - P)}" 2 k(í - p) 


»;!! 
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TABLA 4.9 Distribución del número de anotaciones de seis puntos por equipo y por juego 
en el fútbol colegial, 1967 





Número 






Número 


Número de 


de veces 


Frecuencia 


Probabilidad 


esperado de 


anotaciones 


observadas 


relativa 


teórica 


ocurrencias 





272 


0.1174 


0.1205 


279 


1 


485 


0.2094 


0.2117 


490 


2 


537 


0.2319 


0.2197 


509 


3 


407 


0.1757 


0.1754 


406 


4 


258 


0.1114 


0.1190 


276 


5 


157 


0.0678 


0.0722 


167 


6 


101 


0.0436 


0.0404 


94 


7 


57 


0.0246 


0.0212 


49 


8 


23 


0.0099 


0.0106 


25 


9 


8 


0.0035 


0.0051 


12 


10 


5 


0.0022 


0.0023 


5 


11 + 


6 


0.0026 


0.0019 


4 


Totales 


2316 


1.0000 


1.0000 


2316 



El método con que se calculan estos parámetros* es la suposición de que las esti- 
maciones de E(X) y Var(X) son iguales a la media x y la varianza s 2 , muestral, mis- 
mas que tienen un valor de 2.58 y 3.79 respectivamente. De acuerdo con lo anterior, 
la estimación de/? resulta ser 0.6807 y la de k, 5.5012. Puesto que esta última no es un 
entero, se emplea la función de probabilidad dada por (4.35) para determinar las 
probabilidades teóricas. 

La diferencia aparente entre las distribuciones del número de anotaciones por 
equipo entre la NFL y el fútbol colegial se puede explicar en gran parte por la gran 
variabilidad que existe en la calidad de los oponentes en el fútbol colegial cuando 
éste se compara con la NFL. Como resultado, se espera que la frecuencia con la que se 
anotan seis puntos en el fútbol colegial sea más una función del oponente de lo que 
es en la NFL. De esta manera es como se sugiere la distribución binomial negativa. 

Mediante un empleo directo de la definición, la función generadora de momen- 
tos de la distribución binomial negativa se obtiene de la siguiente manera: 



Jt = •' 



E(e' x ) = 2 e"( k t X _/} Al ~ P Y 



k - 1 



- 2 ^^/Ki - pwr 



~o (* - w.xi 

p k + kp k [(\ - p)e') + 



* , ,„*„, „W! , k ít±Jl Ail _ py] 2 + ..., 



* Véase el capítulo ocho, en particular la sección 8.3.2 para la estimación de parámetros. 



pero ésta es la expansión binomial de 
generadora de momentos está dada por 



4.5 La distribución binomial negativa 121 
; por lo tanto, la función 



p' 



"*"> - u _ „ . pyr «•«> 

Con las distribuciones binomial, de Poisson, binomial negativa e hipergeométri- 
ca, se ha hecho un intento para proporcionar al lector distribuciones discretas de 
probabilidad que han demostrado ser modelos adecuados para muchos fenómenos 
interesantes y útiles de manera práctica. A pesar de que estas distribuciones son simi- 
lares entre sí, cada una de ellas posee características distintas que brindan al usuario 
la información necesaria para una selección apropiada. También debe notarse que si 
un fenómeno no presenta todas las propiedades de una distribución determinada es 
suficiente para excluirla como modelo de probabilidad adecuado para ese fenómeno 
aleatorio. 

Las distribuciones binomial, de Poisson y binomial negativa involucran ensayos 
de Bernoulli en el muestreo que se lleva a cabo con reemplazo. En la distribución bi- 
nomial el muestreo se lleva a cabo con un número fijo de ensayos que tienen una 
probabilidad de éxito o fracaso constante. En la distribución de Poisson el número 
de ensayos es de tal manera infinito que la ocurrencia o no de un evento es constante 
en el tiempo y en el espacio. En la distribución binomial negativa, el muestreo se 
continúa hasta observar un determinado número de éxitos y el número de ensayos 
puede ser infinito. Por lo tanto, esta distribución es una alternativa factible de la de 
Poisson cuando la frecuencia de ocurrencia no es constante en el tiempo y el espacio. 
En la distribución hipergeométrica los ensayos no son independientes puesto que el 
muestreo se lleva a cabo sin reemplazo. No sólo el tamaño de la muestra es fijo, sino 
que se supone que la población es finita y, muchas veces, relativamente pequeña. 
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Ejercicios 

4.1. Sea A" una variable aleatoria con distribución binomial y parámetros nyp. Mediante la 
función de probabilidad binomial, verificar que p(n — x; n, 1 - p) = p(x\ n, p). 

4.2. En una distribución binomial, sea X el número de éxitos obtenidos en diez ensayos don- 
de la probabilidad de éxito en cada uno es de 0.8. Con el resultado del problema ante- 
rior, demostrar que la probabilidad de lograr de manera exacta seis éxitos es igual a la 
probabilidad de tener cuatro fracasos. 

4.3. Mediante el empleo de la función de probabilidad binomial, verificar la siguiente fórmu- 
la de recursión: 

, ^ i \ (" ~ x)p 

p(*+l;n.p) = (x+1)(1 _ p) pCx.i..p). 

4.4. Sea X una variable aleatoria con distribución binomial y parámetros n = 8 y p = 0.4. 
Emplear la fórmula de recursión del problema anterior para obtener las probabilidades 
puntuales de los valores de X. Hacer una gráfica de la función de probabilidad. 

4.5. Sea A" una variable aleatoria distribuida binomialmente con n = 10 y p = 0.5. 

a) Determinar las probabilidades de que A - se encuentre dentro de una desviación están- 
dar de la media y a dos desviaciones estándares de la media. 

b) ¿Cómo cambiarían las respuestas de a) si n = 15 y p = 0.4? 

4.6. Supóngase que la probabilidad de tener una unidad defectuosa en una línea de ensamble 
es de 0.05. Si el número de unidades terminadas constituye un conjunto de ensayos inde- 
pendientes: 

a) ¿Cuál es la probabilidad de que entre 20 unidades dos se encuentren defectuosas? 

b) ¿Cuál es la probabilidad de que entre 20 unidades, dos como límite se encuentren de- 
fectuosas? 

c) ¿Cuál es la probabilidad de que por lo menos una se encuentre defectuosa? 

4.7. En una fábrica de circuitos electrónicos, se afirma que la proporción de unidades defec- 
tuosas de cierto componente que ésta produce, es del 5%. Un buen comprador de estos 
componentes revisa 15 unidades seleccionadas al azar y encuentra cuatro defectuosas. Si 
la compañía se encuentra en lo correcto y prevalecen las suposiciones para que la distri- 
bución binomial sea el modelo de probabilidad adecuado para esta situación, ¿cuál es 
la probabilidad de este hecho? Con base en el resultado anterior ¿puede concluirse que la 
compañía está equivocada? 

4.8. La probabilidad de que un satélite, después de colocarlo en órbita, funcione de manera 
adecuada es de 0.9. Supóngase que cinco de éstos se colocan en órbita y operan de ma- 
nera independiente: 

a) ¿Cuál es la probabilidad de que, por lo menos, el 80% funcione adecuadamente? 

b) Responder a a) si n = 10 

c) Responder a a) si n = 20 

d) ¿Son inesperados estos resultados? ¿Por qué? 

4.9. Con base en encuestas al consumidor se sabe que la preferencia de éste con respecto a 
dos marcas, A y B, de un producto dado, se encuentra muy pareja. Si la opción de 
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compra entre estas marcas es independiente, ¿cuál es la probabilidad de que entre 25 
personas seleccionadas al azar, no mas de diez tengan preferencia por la marca A? 

4.10. Supóngase que un examen contiene 15 preguntas del tipo falso o verdadero. El examen 
se aprueba contestando correctamente por lo menos nueve preguntas. Si se lanza una 
moneda para decidir el valor de verdad de cada pregunta, ¿cuál es la probabilidad de 
aprobar el examen? 

4. 1 1 . Un vendedor de seguros sabe que la oportunidad de vender una póliza es mayor mientras 
más contactos realice con clientes potenciales. Si la probabilidad de que una persona 
compre una póliza de seguro después de la visita, es constante e igual a 0.25, y si el con- 
junto de visitas constituye un conjunto independiente de ensayos, ¿cuántos comprado- 
res potenciales debe visitar el vendedor para que la probabilidad de vender por lo menos 
una póliza sea de 0.80? 

4.12. El gerente de un restaurante que sólo da servicio mediante reservación sabe, por expe- 
riencia, que el 15% de las personas que reservan una mesa no asistirán. Si el restaurante 
acepta 25 reservaciones pero sólo dispone de 20 mesas, ¿cual es la probabilidad de que a 
todas las personas que asistan al restaurante se les asigne una mesa? 

4.13. Mediante la probabilidad de Poisson, demostrar la siguiente fórmula de recursión: 



p(x + 1; X) = 



(*+ 1) 



P(x; X). 



4.14. Sea A' una variable aleatoria de Poisson con parámetro X = 2. Emplear la fórmula del 
problema anterior para determinar las probabilidades puntuales de X - 0, 1, 2, 3, 4, 5, 
6, 7 y 8, y hágase una gráfica de la función de probabilidad. 

4.15. Para un volumen fijo, el número de células sanguíneas rojas es una variable aleatoria 
que se presenta con una frecuencia constante. Si el número promedio para un volumen 
dado es de nueve células para personas normales, determinar la probabilidad de que el 
número de células rojas para una persona se encuentra dentro de una desviación están- 
dar del valor promedio y a dos desviaciones estándar del promedio. 

4.16. El número de clientes que llega a un banco es una variable aleatoria de Poisson. Si el nú- 
mero promedio es de 120 por hora, ¿cuál es la probabilidad de que en un minuto lleguen 
por lo menos tres clientes? ¿Puede esperarse que la frecuencia de llegada de los clientes 
al banco sea constante en un día cualquiera? 

4.17. Supóngase que en un cruce transitado ocurren de manera aleatoria e independiente dos 
accidentes por semana. Determinar la probabilidad de que ocurra un accidente en una 
semana y de que ocurran tres, en la semana siguiente. 

4.18. Sea X una variable aleatoria binomial. Para n = 20, calcular las probabilidades pun- 
tuales binomiales y compararlas con las correspondientes probabilidades de Poisson 
parap = 0.5,0.3,0.1 y 0.01. 

4.19. Una compañía compra cantidades muy grandes de componentes electrónicos. La deci- 
sión para aceptar o rechazar un lote de componentes se toma con base en una muestra 
aleatoria de 100 unidades. Si el lote se rechaza al encontrar tres o más unidades defec- 
tuosas en la muestra, ¿cuál es la probabilidad de rechazar un lote si éste contiene un 1% 
de componentes defectuosos? ¿Cuál es la probabilidad de rechazar un lote que contenga 
un 8% de unidades defectuosas? 
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4.20. El número de componentes que fallan antes de cumplir 100 horas de operación es una 
variable aleatoria de Poisson. Si el número promedio de estas es ocho: 1 

a) ¿Cuál es la probabilidad de que falle un componente en 25 horas? § 

b) ¿Cuál es la probabilidad de que fallen no más de dos componentes en 50 horas? § 

c) ¿Cuál es la probabilidad de que fallen por lo menos diez en 125 horas? 

4.21. Mediante estudios recientes se ha determinado que la probabilidad de morir por causa 
de cierta vacuna contra la gripe es de 0.00002. Si se administra la vacuna a 100 mil perso- 
nas y se supone que estas constituyen un conjunto independiente de ensayos, ¿cuál es la 
probabilidad de que mueran no más de dos personas a causa de la vacuna? 

4.22. Un fabricante asegura a una compañía que el porcentaje de unidades defectuosas es de 
sólo dos. La compañía revisa 50 unidades seleccionadas aleatoriamente y encuentra cin- 
co defectuosas. ¿Qué tan probable es este resultado si el porcentaje de unidades defec- 
tuosas es el que el fabricante asegura? 

4.23. El número de accidentes graves en una pla.ta Industrial es de diez por año, de manera 
tal que el gerente instituye un plan que considera efectivo para reducir el número de ac- 
cidentes en la planta. Un año después de ponerlo en marcha, sólo han ocurrido cuatro 
accidentes. ¿Qué probabilidad hay de cuatro o menos accidentes por año, si la frecuen- 
cia promedio aún es diez? Después de lo anterior, ¿puede concluirse que, luego de un 
año, el número de accidentes promedio ha disminuido? 

4.24. El Departamento de Protección del Ambiente ha adquirido 40 instrumentos de preci- 
sión para medir la contaminación del aire en distintas localidades. Se seleccionan aleato- 
riamente ocho instrumentos y se someten a una prueba para encontrar defectos. Si 
cuatro de los 40 instrumentos se encuentran defectuosos, ¿cuál es la probabilidad de que 
la muestra contenga no más de un instrumento defectuoso? 

4.25. Se sospecha que por causa de un error humano se han incluido en un embarque de 50 uni- 
dades, dos (o más) defectuosas. El fabricante admite el error y envía al cliente sólo 48 
unidades. Antes de recibir el embarque, el cliente selecciona aleatoriamente cinco uni- 
dades y encuentra una defectuosa. ¿Debe reclamar una indemnización al fabricante? 

4.26. Los jurados para una corte federal de distrito se seleccionan de manera aleatoria entre 
la lista de votantes del distrito. En un determinado mes se selecciona una lista de 25 can- 
didatos. Ésta contiene los nombres de 20 hombres y cinco mujeres. 

a) Si la lista de votantes se encuentra igualmente dividida por sexo, ¿cuál es la probabili- 
dad de tener una lista que contenga a 20 hombres y cinco mujeres? 

b) Supóngase que de esta lista se elige un jurado de doce personas, de las cuales sólo 
una es mujer. ¿Cuál es la probabilidad de este hecho, si los miembros del jurado se 
seleccionan de manera aleatoria? 

c) Si el lector fuera el abogado de la defensa, ¿que podría argumentar mediante el 
empleo de las respuestas de las partes a y bl 

4.27. Una compañía recibe un lote de 1 000 unidades. Para aceptarlo se seleccionan diez uni- 
dades de manera aleatoria, y se inspeccionan. Si ninguna se encuentra defectuosa, el 
lote se acepta; de otro modo, se rechaza. Si el lote contiene un 5% de unidades defec- 
tuosas: 

a) Determinar la probabilidad de aceptarlo mediante el empleo de la distribución hiper- 
geométrica. 
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b) Aproximar la respuesta de la parte a mediante el empleo de la distribución binomial. 

c) Aproximar la respuesta de la parte b mediante el empleo de la distribución de Pois- 
son. 

4.28. En el ejercicio anterior, ¿cómo cambiarían las respuestas de las partes a, b y c si el tama- 
ño del lote fuera de 40 unidades? 

4.29. Considérese las funciones de probabilidad binomial y binomial negativa dadas por las 
expresiones 4.1 y 4.34, respectivamente. Demostrar que: 

k 
p SB (x\ k, p) = — — p B (k\ x + k, p). 
x + k 

4.30. Sea X una- variable aleatoria binomial negativa con parámetros k = 3 y p = 0.4. 
Emplee el resultado del problema anterior para calcular las probabilidades puntuales 
para los siguientes valores de A 1 : 0, 1, 2, 3, 4 y 5. 

4.31. Greenwood y Yule* dieron a conocer el número de accidentes ocurridos entre 414 ope- 
radores de maquinaria, en un periodo de tres meses consecutivos. En la tabla 4. 10 la pri- 
mera columna indica el número de accidentes sufridos por un mismo operador, y la 
segunda indica la frecuencia relativa para aquellos que habían sufrido la cantidad de ac- 
cidentes indicada en el lapso de tres meses. 



TABLA 4.10 


X 


Frecuencia 




relativa 





0.715 


1 


0.179 


2 


0.063 


3 


0.019 


4 


0.010 


5 


0.010 


6 


0.002 


7 


0.000 


8 


0.002 



Con el procedimiento del ejemplo 4.10, comparar las frecuencias relativas observadas 
con las correspondientes probabilidades si el número de accidentes es una variable alea- 
toria binomial negativa. 

4.32. Un contador recientemente graduado pretende realizar el examen CPA. Si el número de 
veces que se hace el examen constituye un conjunto de eventos independientes con una 
probabilidad de aprobar igual a 0.6, ¿cuál es la probabilidad de que no se necesiten más 
de cuatro intentos para aprobar el examen? ¿Son válidas las suposiciones de independen- 
cia y probabilidad constante? 



* Encuesta acerca de la distribución representativa de la frecuencia de múltiples eventos, con especial re- 
ferencia a la ocurrencia de múltiples ataques de enfermedades o accidentes repetidos, J . of the Royal Sta- 
tisiical Soc. 83 (1920), 255. 
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4.33. En un departamento de control de calidad se inspeccionan las unidades terminadas que - 
provienen de una línea de ensamble. Se piensa que la proporción de unidades defec- ¿ 
tuosas es de 0.05. 

a) ¿Cuál es la probabilidad de que la vigésima unidad inspeccionada sea la segunda que 
se encuenre defectuosa? 

b) Supóngase que la décimo quinta unidad inspeccionada es la segunda que se encuen- 
tra defectuosa. ¿Cuál es la probabilidad de este hecho bajo condiciones determina- 
das? 

4.34. De las distribuciones binomial, Poisson, hipergeométrica y binomial negativa, ¿cuáles 
no consideraría si alguien le dijera, de una distribución en particular que: 

a) ¿La media es igual a la varianza? 

b) ¿La media es más grande que la varianza? 

c) ¿La media es menor que la varianza? 

d) El tercer momento, alrededor de la media, ¿es negativo? 

e) ¿El fenómeno aleatorio de interés constituye un grupo de ensayos independientes? 

f) ¿El muestreo se lleva a cabo con reemplazo? 

g) ¿El muestreo se lleva a cabo sin reemplazo? 



APÉNDICE 

Deducción de la función de probabilidad de Poisson 

Sea p(x; t) la probabilidad de tener, de manera exacta, X ocurrencias en un interva- 
lo /, y supóngase lo siguiente: 

1. En este intervalo, los eventos ocurren de manera independiente. 

2. La probabilidad de una sola ocurrencia, en un intervalo muy pequeño dt es vdt, 
en donde v es la frecuencia constante de ocurrencia y (y > 0). 

3. El intervalo dt es tan pequeño, que la probabilidad de tener más de una ocurren- 
cia en dt es despreciable. 

El evento que en el tiempo t + dt ha ocurrido exactamente x veces, puede llevarse a 
cabo de dos maneras diferentes y excluyentes: 

1 . Existen x ocurrencia por tiempo /, con probabilidad p(x; t) y ninguna endt, con 
probabilidad (1 - vdt). Dada la suposición de independencia, la probabilidad 
conjunta es p(x; t)(\ — vdt). 

2. Existen x - 1 ocurrencias por tiempo t, con probabilidad p(x - 1 ; t) y una du- 
rante dt, con probabilidad vdt. Otra vez, dada la suposición de independencia, la 
probabilidad conjunta es: p(x - 1; t)vdt. 

Esto es: 

p(x\ t + dt) = p(x; /)(1 - vdt) + p(x - I; t)vdt. 
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Después de multiplicar, transportar p(x; t) al primer miembro, y dividir por dt, se 
tiene: 



p(x; t + dt) - p{x; t) 
di 



= v[p(x - \;t) - p(x;t)]. 



Si se toma el límite conforme dt — * 0, por definición se tiene: 
dp(x; t) 



dt 



= v[p(x - l;r) - p(x;t)], 



(4.44) 



que es una ecuación diferencial lineal con respecto a t y una ecuación de diferencias 
finitas de primer orden, con respecto a x. Si x = 0, la ecuación (4.44) se convierte en 



dp(0; t) 
dt 



= v[p(-\;t)- p(0;t)] 



= -vp(0;t), 

dado que p( - 1 ;/) tiene que ser cero. La solución general de la ecuación diferencial 
lineal 



dp(0; t) 
dt 



= -vp(0;t) 



se obtiene mediante separación de variables e integración en ambos miembros, lo 
que da como resultado: 

ln[p(0; t)] = ln(c) - vt, 



p(0; /) = ce' 1 " 

Dado que la probabilidad de tener cero ocurrencias en un intervalo t = 0, debe ser 1, 
c = 1, y 



p(0;t) = e "'. 



Si x = 1, (4.44) se convierte en 

dp(l;t) _ 
dt 



v[p(0;t) - p(l;/)], 



dp(\;t) 
dt 



+ vp{\\ t) = ve 



(4.45) 



La ecuación (4.45) es una ecuación diferencial no homogénea con la condición ini- 
cial de que p(l; 0) = dado que la probabilidad de tener exactamente una 
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ocurrencia en t = debe ser cero. La solución de (4.45) es 

pd;t) = (vt)e-" 

I 
De manera similar, para jc = 2 y p(2; 0) = 0, (4.44) se reduce a ¡ 

. dp{2; t) 2 _„, 

— — — + vp{2; t) = v l te ", 

cuya solución es 



P(2; t) = 



2! 



Al continuar este proceso puede deducirse que la probabilidad de tener exactamente 
x ocurrencias en / es 

pU; /) = (Vt) ' , jr = 0,1,2,... (4.46) 

x: 

siempre que p(x; 0) = 0. Si se sustituye A = vt en (4.46), el resultado es la fun- 
ción de probabilidad de Poisson. 



APÉNDICE 

Demostración del teorema 4.1 

Al multiplicar numerador y denominador por n* y sustituir n\/(n - r)! = n(n 
\){n - 2) ■■■ {n - x + 1), la función de probabilidad binomial es: 

p(.r; n, p) = — (/ip^l - p)" 

n x\ 



n(n - l)(n - 2) ••• (n - x + I) A 



** 


--Al - P Y~ X 

x\ 


-3- 


('-H^'-*" 


2 1 1 


'i •'-') 


ni ( 


V w 7 A 1 



I - - 

n 



.-iii. 

' "' (I - P)"- (4.47) 



Dado que: 

y por definición: 



(1 - p)' -r! 

(1 - pY = [(I - p)' 1 ^]"^ [(I - p)- u T K 



lím (1 + z) ,/z = e, 

r— o 



mediante el cambio de variable z = — p, se tiene 



Además, 



lím[(l - pV u T Á = e-\ 

p-0 






lim(l - pf = 1. 

p-»0 



Al sustituir en (4.47), 



j?U; n,p) = 



lím j?(x; n,p) = — — , jc = O, 1, 2, ... 



CAPITULO CINCO 



Algunas distribuciones 
continuas de probabilidad 



5.1 Introducción 

Estas distribuciones se emplearon en el estudio de fenómenos aleatorios en discipli- 
nas como la ingeniería y las ciencias aplicadas o bien los negocios y la economía. En 
este capítulo se desarrollará un método para determinar la distribución de probabili- 
dad de una función de variable aleatoria y se introducirán los conceptos básicos para 
la generación, por computadora, de números aleatorios. 

De manera específica se estudiarán los siguientes modelos de probabilidad: nor- 
mal, uniforme, beta, gama, de Weibull y exponencial negativa. La forma de abordar 
los temas será la misma que se empleó en el capítulo cuatro. Se discutirán las pro- 
piedades de cada modelo y se indicarán áreas de aplicación específica, con lo que se 
pretende proporcionar al lector una idea y comprensión suficiente para utilizar los 
modelos de manera apropiada. 



5.2 La distribución normal 

La distribución normal o Gausiana es indudablemente la más importante y la de ma- 
yor uso de todas las distribuciones continuas de probabilidad. Es la piedra angular 
en la aplicación de la inferencia estadística en el análisis de datos, puesto que las 
distribuciones de muchas estadísticas muéstrales tienden hacia la distribución nor- 
mal conforme crece el tamaño de la muestra. La apariencia gráfica de la distribución 
normal es una curva simétrica con forma de campana, que se extiende sin límite 
tanto en la dirección positiva como en la negativa. Un gran número de estudios indi- 
ca que la distribución normal proporciona una adecuada representación, por lo me- 
nos en una primera aproximación, de las distribuciones de una gran cantidad de va- 
riables físicas. Algunos ejemplos específicos incluyen datos meteorológicos tales 
como la temperatura y la precipitación pruvial, mediciones efectuadas en organis- 
mos vivos, calificaciones en pruebas de actitud, mediciones físicas de partes manu- 
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facturadas, errores de instrumentación y otras desviaciones de las normas estableci- 
das, etc. Sin embargo, debe tenerse mucho cuidado al suponer para una situación 
dada un modelo de probabilidad normal sin previa comprobación. Si bien es cierto 
que la distribución normal es la que tiene un mayor uso, es también de la que más se 
abusa. Quizá esto se deba a la mala interpretación de la palabra "normal", especial- 
mente si se aplica su significado literal de "patrón o estándar aceptado". Suponer de 
manera errónea una distribución normal puede llevar a errores muy serios. Es po- 
sible que una distribución normal proporcione de manera razonable una buena 
aproximación alrededor de la media de una variable aleatoria; sin embargo, puede 
resultar para valores extremos que se encuentren en cualquier dirección. Por 
ejemplo, si se diseña cierto material para resistir una cantidad dada de presión, que 
se supone se encuentra distribuida normalmente alrededor de un valor promedio, y 
el diseño se hace con base en esta suposición, el material puede verse seriamente da- 
ñado al aplicársele una presión muy elevada. 

En la definición 5. 1 se proporciona la función de densidad de probabilidad de la 
distribución normal, la cual fue descubierta por DeMoivre en 1733 como una forma 
límite de la función de probabilidad binomial; después la estudió Laplace. También 
se conoce como distribución Gausiana porque Gauss la citó en un artículo que 
publicó en 1809. Durante el siglo xix se empleó de manera extensa por científicos 
que habían notado que los errores, al llevar a cabo mediciones físicas, frecuentemen- 
te seguían un patrón que sugería la distribución normal. 



'1 



Definición 5.1 Se dice que una variable aleatoria X se encuentra normalmente 
distribuida si su función de densidad de probabilidad está dada por 



f(x; ¡x, cr) = 



1 



\/2tt cr 



exp 



x - ¡x 



— oc < r < oc 

(5 1) 



Los parámetros de la distribución normal son ¡x y o- y además determinan de 
manera completa la función de densidad de probabilidad. Como se verá posterior- 
mente, estos parámetros son la media y la desviación estándar de X, respectivamen- 
te. En la figura 5.1 se proporcionan varias gráficas de (5.1) para distintos valores de 
ti a cr fijo y viceversa. 

Es obvio que para cualquier par de valores fx y cr, (5. 1) es simétrica y tiene forma 
de campana. Si se obtienen las dos primeras derivadas de /(.v: /x, cr) con respecto a 
x y se igualan a cero, se tiene que el valor máximo de /(.r, /x, cr) ocurre cuando x = 
M, y los valores .t = /x ± cr son las abcisas de los dos puntos de inflexión de la 
curva. En un apéndice al final de este capítulo se proporciona la demostración de 
que (5.1) es una función de densidad de probabilidad. 

La media de una variable aleatoria distribuida normalmente se encuentra defini- 
da por: 



E(X) 



\Z2n cr J - 



.vexp[-(.v - /x) : /2cr : ]í/.v. 



(5.2) 



■I 
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M = -l M=0 n= 1 



a = 0.71 




M = 



FIGURA 5.1 Gráficas de la función de densidad normal para diferentes valores de m y c 
Se pretende demostrar que E(X) = fi. Supóngase que a (5.2) se suma y se resta 

exp[-(.r - fi) 2 /2a 2 ]dx. 



2tt a J ~ x 



V* 
La identidad se mantiene, pero después de reacomodar términos se tiene 



E(X) = 



277 O" J x 

2 77 O" ^ " * 



v - / u)exp[-(.v - fj.) 2 /2a 2 ]dx 



(x - M )V2o- 2 ]</.v 



V277: 



/u)exp[-(.v - ix) 2 /2cr 2 ]dx + (i. 



(5.3) 
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dado que el valor de la segunda integral es uno. Al efectuar un cambio de variable de 
integración en (5.3) de manera tal que y = (x - fi.)/cr, x = a y + /x, y dx = <r 
dy, se tiene: 



E{X) = -4=/_ x vexp(-y 2 /2)Jy + /x 



V2tt- 
= ^=exp(-y 2 /2) +M = M- (5.4) 

V27T 

El lector recordará de sus cursos de cálculo que la última integral es cero porque 
el integrando es una función impar* y la integración se lleva a cabo sobre un interva- 
lo simérico alrededor de cero. 

Una distribución normal es simétrica alrededor de su media m- Si el valor máxi- 
mo de la función de denuda i de probabilidad normal ocurre cuando x = ¿i, ¡x es la 
media, la mediana y la moda de cualquier variable aleatoria distribuida normalmente. 

Para encontrar los demás momentos, se determinará la función generadora de 
momentos. Por definición: 

m x -¿t) = Eíe"*-»] = -¡L- f exp[fU - /i)lcxp[ - (jt - fi) 2 /2o* ]dx 

\J2tt o- j x 

• = vh /-- exp { - h l(x - ^ - 2(r2t(x - ^H 

Se completa el cuadrado en el interior del paréntesis rectangular y se tiene: 
(jc - m) 2 ~ 2cr 2 t(x - n) = (x - (i) 2 - 2a- 2 t(x - fi) + <r 4 t 2 - <r*t 2 

= (x - n - cr 2 í) 2 ~ o- 4 / 2 



mx-J,t) = -i- f exp(o- 2 / 2 /2)exp{-tx - (m + a 2 1)} 2 /2<r 2 }dx 
' 2tt o- j - x 



y: 

m., (ñ = _ 
y/2i 

= exp(o- 2 / 2 /2) • r - exp{-[x - (/x + <r 2 t)] 2 /2o- 2 }dx 

\j2ti a } - x 

= exp(o- 2 / 2 /2). (5.5) 

dado que el integrando junto con el factor \/\¡2n o- es una función de densidad de 
probabilidad normal con parámetros /i. + a 2 t y o-. 
Al desarrollar (5.5) en serie de potencias se tiene: 

* Se dice que una función f(x) es impar si f( - x ) = -f(x). Entonces /"_ „/(.r)í/.r = 0. Se dice que una 
función f(x) es par si /( - jt) = JXx). Entonces f"- a f(x)dx = 2 /;;/(.v)í/.v. 
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Cuando las potencias impares de / no se encuentran presentes, todos los momentos 
centrales de X de orden impar son cero, de esta forma se asegura la simetría de la 
curva. 

La segunda derivada de m x - lí (t) evaluada en / = es la varianza y está dada 
por: 



Var(X) = d -^» 
dt 



12/V 






+ 



30/ V 6 
8-3! 



+ 



= o- 2 ; (5.6) 



/ = 



de esta manera la desviación estándar es o-. De manera similar, la cuarta derivada de 
m X -,Xt) evaluada en t = es el cuarto momento central, el cual es: 



d*mx-M) 
^ = ~d7~ 



= 3cr 4 + 



4 360/ V 6 



8-3! 



+ 



= 3c/ 



(5.7) 



/=0 



De acuerdo con lo anterior, para cualquier distribución normal el coeficiente de 
asimetría es a^X) = 0, mientras que la curtosis relativa es a¿X) = 3er 4 /o- 4 = 3. 
Para momentos alrededor del cero, puede determinarse la función generadora de 
momentos de X mediante el empleo directo de la función generadora de momentos 
centrales (o viceversa). Dado que 

%-,(') = Ele'"-*] 

= exp(-/x/)E[exp(/Z)] 
= exp(- /j.t)m x (t), 
para una distribución normal 

exp( - fjit)m x (t) — exp(o- 2 / 2 /2) 

y 

m x (í) = expí /xí + ^— - I . (5.8) 



La probabilidad de que una variable aleatoria normalmente distribuida X sea 
menor o igual a un valor específico, x está dada por la función de distribución acu- 
mulativa 



P(X < x) = FU- 



1 f 
fi, a-) = — 

\/?TT IT J ~ 



V27T, 



exp|-(í - n)-¡2a']dt. 



(5.9) 



La integral en (5.9) no puede evaluarse en forma cerrada; sin embargo, se puede ta- 
bular F(x\ fi, a) como una función de m y a, lo que necesitaría una tabla para 
cada par de valores. Como existe un número infinito de valores de m y <r, esta tarea 
es virtualmente imposible. Afortunadamente, lo anterior puede simplificarse me- 
diante el empleo de la siguiente transformación: sea Z una variable aleatoria defini- 
da por la siguiente relación: 



Z=(X- ¡i)/*. 
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(5.10) 



en donde nyff son la media y la desviación estándar de X, respectivamente. De 
acuerdo con lo anterior, Z* es una variable aleatoria estandarizada con media cero y 
desviación estándar uno, de acuerdo con lo que se discutió en el capítulo tres. 
Si la transformación (5.10) se sustituye en (5.9), entonces: 



P'X < x) = P[Z < (x - fji)/cr] = —L- i 

\n-TT rr J- 



íx-fi)/rr 

\fhra- 



\/2¿ 



exp(-z 2 /2)(crdz) 

x. 

J ^ exp(-z 2 /2)dz. (5.11) 



El integrando en (5.11) junto con el factor \/\¡2tr es la función de densidad de 
probabilidad de la variable aleatoria normal estandarizada Z. Esto es, si X se en- 
cuentra normalmente distribuida con media fj. y desviación estándar cr, entonces 
Z = (X - fi)/a también se encuentra normalmente distribuida con media cero y 
desviación estándar uno. Así, para z = (x - ¿¿)/cr, P(X < x) = P(Z £z) y 



F x (x; fi, cr) = F z (z; 0, 1), 



(5.12) 



donde F¿{z; 0, 1) es la función de distribución acumulativa de la función de pro- 
babilidad normal estandarizada. En la figura 5.2 se proporciona la gráfica de la 
función de distribución para la variable aleatoria normal estandarizada. 

* Se empleará Z para denotar una variable aleatoria normal estandarizada. 







FIGURA 5.2 Función de distribución acumulativa de la normal estándar 
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La función F z (z; O, 1) se encuentra tabulada, de manera extensa, y se da en la 
tabla D del apéndice. Para cualquier valor específico de z, el correspondiente valor 
en la tabla es la probabilidad de que la variable aleatoria normal estándar Z sea me- 
nor o igual a z; esto es, 

P(Z < z) = F z (z; 0, 1) = -¿= í exp( - t 2 /2)dt. (5.13) 

En este momento es conveniente introducir la notación X ~ N(fi, cr) para denotar 
que la variable X se encuentra distribuida normalmente con media ¡x y desviación estándar 
cr. En lo que sigue se examinará cómo puede determinarse la probabilidad de que un 
valor de X se encuentre entre a y b, si X ~ N(fi, cr) . Por definición: 

1 f* 
P(a^X^b) = .— exp[-(jc - i¿) 2 /2cr 2 ]dx, 

\J2lf O" Ja 

pero, mediante el empleo de (5.3) se tiene: 

a — u, „ b — u, 
— - <Z< 

cr cr 

r(h-n)/<r 



P(a^X^b) = P 
1 



exp(-z 2 /2)dz 

J(a-ii)/<r 



\2lT Jb¡-l±)/<T 

= F z (^;0,l)-F z ^;0,l|. (5.14) 

En otras palabras, la probabilidad de que A' esté entre a y b es, de manera exacta, la 
misma probabilidad de que Z se encuentre entre {a - ¡x)/cr y (b - ¿O/o-, en don- 
de Z es N(0, 1). En la figura 5.3 se ilustra esta correspondencia de probabilidades. 
Se ilustrará el empleo de la tabla D mediante los siguientes ejemplos. 

Ejemplo 5.1 Si X es N((i, cr), ¿cuáles son las probabilidades de que el valor de X 
se encuentre a una, dos y tres veces la desviación estándar de la media? 

pí <r v <r _■_ * „/ m - o - - M ^ 7 ^ M + o" ~ M 
A^/u. — cr<XS(i + cr) = P[ < Z :£ 

\ O" O" 

= /°(-l <Z< 1) 
= F z (I;0, I) - />(-!;<>. I) 
= 0.6826. 
/°(/l¿- 2o-<Z<m + 2o-) = f(-2<Z< 2) 

= f z (2; 0, 1) - F z ( -2; 0, I) = 0.9544. 
/°(/j. - 3o- < Z < /x + 3er) = />( - 3 < Z < 3) 

= F¿(3;0, I) - F z (-3;0, 1) = 0.9974. 



i 
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/(*) 




a-n 



b-¡i 



FIGURA 5.3 Correspondencia entre las probabilidades de X y de Z 



Así, para cualquier variable aleatoria normal las probabilidades "una sigma", "dos 
sigma" y "tres sigma" son 0.6826, 0.9544 y 0.9974 respectivamente. Este resultado 
indica que para la distribución normal existe una gran concentración de valores alre- 
dedor de la media. 

Ejemplo 5.2 Sea X una variable aleatoria que representa la inteligencia medida por 
medio de pruebas CI. Si A' es /v*(100, 10), obtener las probabilidades de que A" sea 
mayor que 100, menor que 85, a lo más 1 12, por lo menos 108, más grande que 90, y 
entre 95 y 120. 

Debe notarse que al resolver problemas de esta clase, el lector puede encontrar de 
gran ayuda graficar las correspondientes áreas bajo las curvas de densidad normal, 
como se ilustra en la figura 5.3. Dado que la distribución de probabilidad de A" es si- 
métrica alrededor de su media, la probabilidad de que X sea mayor que este valor es, 
por definición, 0.5. Las otras probabilidades se obtienen de la siguiente forma: 



P(X < 85) = pIz < 85 10 ° ) = P{Z< - 1.5) 

= /v(-I.5;0, 1) = 0.0668. 
P(X < 112) = P(Z< 1.2) = ^(1.2:0, 1) = 0.8849. 
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P(jr> 108) = P(Z>0.8) = I - F z (0.8;0, 1) = 0.2119. 
P(X>90) = P(Z> -1) = 1 - F 2 (-1;0, 1) = 0.8413. 
P(95<A-< 120) = P(-0.5<Z<2) = F z (2;0, 1) - F z (-0.5;0, I) = 0.6687. 



Ejemplo 5.3 Supóngase que la demanda mensual de cierto producto se encuentra 
aproximada por una variable aleatoria normal con media de 200 y desviación están- 
dar igual a 40 unidades. ¿Qué tan grande debe ser el inventario disponible a principio 
de un mes para que la probabilidad de que la existencia se agote no sea mayor de 
0.05? 

Sea X la demanda mensual, entonces X es N(200, 40). Lo que se desea obtener 
es el valor del cuantil x 95 para el nivel de inventario a principio del mes, de manera 
tal que la probabilidad de que la demanda exceda a x 095 (existencias agotada) no sea 
mayor de 0.05. Esto es: 

P(X > jc 095 ) = 0.05 

o 

; P(X < *„.«) = 0.95. 

De lo anterior se sigue que: 

P[Z < (;c . 95 - 200)/40] = 0.95 

o 

P(Z<z 095 ) = F z (z .«;0, 1) = 0.95, 

donde z 95 = (x 95 - 200)/40 es el valor cuantil correspondiente a la variable aleato- 
ria normal estándar. Para obtener z .95 de la tabla D, primero se busca la probabili- 
dad más cercana a 0.95. Una vez que se encuentra este valor, se toman los corres- 
pondientes valores del renglón y la columna y se interpola para encontrar el valor 
deseado de Zo.95- Por ejemplo, Z0.95 tiene un valor aproximado de 1.645 y dado que 
Z0.95 = U0.95 ~~ 200)/40, x 095 tiene un valor de 265.8. Esto significa que el inventario 
a principio de cada mes no debe ser menor de 266 unidades para que la probabilidad 
de agotar las existencias no sea mayor de 0.05. 

Ejemplo 5.4 Supóngase que el diámetro externo de cierto tipo de cojinetes se en- 
cuentra, de manera aproximada, distribuido normalmente con media igual a 3.5 cm 
y desviación estándar igual a 0.02 cm. Si el diámetro de estos cojinetes no debe ser 
menor de 3.47 cm ni mayor de 3.53 cm, ¿cuál es el porcentaje de cojinetes, durante 
el proceso de su manufactura, que debe desecharse? 

Sea A' el diámetro del cojinete, en donde X es N(3.5, 0.02). La probabilidad de 
que el diámetro se encuentre entre 3.47 cm y 3.53 es: 



P(3.47<*<3.53) 



-( 



3.47 - 3.5 
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3.53 - 3.5 



0.02 



0.02 

= F(-1.5<Z< 1.5) 

= F Z (1.5;0, 1)-F Z (-1.5;0, 1) 

= 0.8664. 

Dado que el 86.64% de los cojinetes cumplen con las especificaciones determinadas, 
se deduce que 1 - 0.8664 = 0. 1336, o, en otras palabras, debe desecharse el 13.36% 
de la producción. 

En el ejemplo 3.1 1 se determinó que para la distribución normal estándar los valo- 
res del primero y tercer cuantil son, de manera aproximada, iguales a -0.675 y 0.675 
mientras que los correspondientes a los deciles primero y noveno son alrededor de 
-1.28 y 1 . 28 respectivamente . De (5 . 1 0) se sigue que «i A' es N(fi , o-) , los valores de los 
cuantiles primero y tercero de X son jc 02 5 = — 0.675o- + /x y x 075 = 0.675<r + n- 
De esta manera el recorrido i ntercuantil es Jt 075 - jc 02 5 = 1.35o-. De manera simi- 
lar, los valores de los deciles primero y noveno son: jc oio = -1.28o + ¡x y 
X0.90 = 1.28o- + fi, y el recorrido interdecil está dado por jt 090 - jc , = 2.56o-. 
Del ejemplo 3.11, se puede concluir que si X ~ N(fi, o), la desviación media de X es 

E\X - fi\ = 0.7979o. (5.15) 

La tabla 5.1 contiene las propiedades básicas de la distribución normal. 

Ejemplo 5.5 La primera columna de la tabla 5.2 contiene los intervalos de respues- 
tas correctas para la prueba de matemáticas (SAT); la segunda, el correspondiente 
número de calificaciones observadas para el periodo 1979-1980, tal y como fueron 
dadas a conocer en el College BoardATP Summary Report; la tercera columna, las 
frecuencias relativas, las restantes, información con respecto a si las calificaciones 
para la prueba SAT obtenidas por los hombres estaban distribuidas normalmente 
con media 491* y desviación estándar igual a 120*. 

* Estos datos se proporcionan en el College Board ATP Summary Report, 1979-1980. 
TABLA 5.1 Propiedades básicas de la distribución normal 



Función de densidad de probabilidad 



Parámetros 



f(x; /í, a) = — exp 
\/2tt a 




fl, -os < fi<oc 

a, cr>0 



Desviación Recorrido Recorrido Coeficiente Curtosis 
Media Varianza media ¡ntercuantil interdecil de asimetría relativa 



M 



<T 



0.7979o 



1.35o 



2.56o 



O 
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TABLA 5.2 Calificaciones obtenidas en la prueba de matemáticas SAT por los estudiantes 
del tercer ano de preparatoria en el ciclo 1979-1980 



Número de 


Intervalo 






respuestas Número de Frecuencia 


normal 


Probabilidad 


Número 


correctas exámenes relativa 


estándar 


del intervalo 


esperado 



(200-249) 


3 423 


0.0072 


(-2.425- -2.01) 


0.0146 


6 981.62 


(250-299) 


18 434 


0.0385 


(-2.01- -1.59) 


0.0337 


16 115.10 


(300-349) 


39 913 


0.0835 


(-1.59- -1.18) 


0.0631 


30 173.98 


(350-399) 


51 603 


0.1079 


(-1.18- -0.76) 


0.1046 


50 018.99 


(400-449) 


61 691 


0.1290 


(-0.76- -0.34) 


0.1433 


68 525.06 


(450-499) 


72 186 


0.1510 


(-0.34-0.075) 


0.1630 


77 945.46 


(500-549) 


72 804 


0.1522 


(0.075-0.49) 


0.1580 


75 554.49 


(550-599) 


58 304 


0.1219 


(0.49-0.91) 


0.1307 


62 499.83 


(600-649) 


46910 


0.0981 


(0.91-1.325) 


0.0888 


42 463.54 


(650-699) 


30 265 


0.0633 


(1.325-1.74) 


0.0517 


24 722.58 


(700-749) 


16 246 


0.0340 


(1.74-2.16) 


0.0255 


12 193.92 


(750-800) 


6 ',14 


0.0134 


(2.16-2.575) 


0.0104 


4 973.21 


Totales 


478 193 


1.0000 




0.9874 


472 167.78 



Mientras que, de manera aparente, existe una similitud entre las frecuencias teóricas 
y las observadas, queda aún por contestar la pregunta acerca de cuándo puede rechazar- 
se o no (véase Cap. 10) la hipótesis de que las calificaciones de la prueba SAT se distri- 
buyeron normalmente con media 491 desviación estándar igual a 120. Como se men- 
cionó, siempre es importante verificar lo que ocurre en los extremos de la distribución 
observada. Por ejemplo, se sabe que para la prueba SAT es imposible obtener califica- 
ciones para los eventos X < 200 y X > 800. Sin embargo, si X ~ N(491), las corres- 
pondientes probabilidades son 120), P(X < 200) = 0.0075 y P(X > 800) = 0.005. 
El siguiente ejemplo debe ilustrar de manera más clara la falta de concordancia en 
los extremos, entre las distribuciones observadas y teórica. 






Ejemplo 5.6 El número de unidades de un cierto producto que un comerciante ven- 
de al día varía de manera aleatoria con cambios muy pequeños que se deben a la 
temporada o al día de la semana. Con base en información anterior, se cree que la de- 
manda diaria de este producto es una variable aleatoria normal con media y des- 
viación estándar iguales a 100 y 12 unidades, respectivamente. Para comprobar su 
grado de creencia, el vendedor anota la demanda diaria durante los últimos 102 días 
y la agrupa como se muestra en la tabla 5.3. Comparar las frecuencias relativas que 
se observaron con las frecuencias teóricas al suponer una distribución normal con 
media 100 y desviación estándar 12. 

Como se ilustra en la figura 5.4, las frecuencias relativas que se observan en la 
demanda diaria sugieren una curva en forma de campana. Sin embargo, la tabla 5.4 
en que se comparan las frecuencias relativas teórica y observada, muestra una 
discrepancia muy grande en los extremos a pesar de que existe una buena concordan- 
cia alrededor de la media. Suponer una distribución normal para este tipo de si- 
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TABLA 5.3 Demanda diaria de un producto 



Demanda diaria 



Frecuencia 



(55-64) 

(65-74) 

(75-84) 

(85-94) 

(95-104) 

(105-114) 

(115-124) 

(125-134) 

(135-144) 



6 

4 

6 

20 

32 

18 

6 

6 

4 



tuación puede llevar a errores muy grandes cuando es necesario tener información 
sobre los extremos. 

Recuérdese que la distribución binomial es una forma límite de la distribución de 
Poisson cuando n es grande y p pequeño. Se desea demostrar que la distribución 
normal es una forma límite de ¡a binomial cuando n es grande yp no tiene un valor 
cercano a cero o a uno. El siguiente teorema, que se conoce como teorema del límite 
de DeMoivre-Laplace, asegura una aproximación adecuada mediante la distribución 
normal de las probabilidades binomiales si n es suficientemente grande. 



Teorema 5.1 Sea X una variable aleatoria binomial con media np y desviación es- 
tándar V«P(1 ~ />)• La distribución de la variable aleatoria tiende a la normal 



Y = 



np 



y/np(l - p) 



(5.16) 
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FIGURA 5.4 Frecuencias relativas que se observan para la demanda diaria de un producto 
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estándar conforme el número de ensayos independientes «—*«. Se proporciona un 
desarrollo de la prueba en un apéndice al final de este capítulo. 

La esencia del teorema 5.1 es que si A" es una variable aleatoria binomial, para 
la que el número de ensayos independientes es suficientemente grande, se dice que 
X posee una distribución normal aproximada con media np y desviación estándar 
\/np(\~ p). De hecho, la aproximación es adecuada tanto como np > 5 cuando 
p =£ 1/2, o cuando n{\ - p) > 5 parap > 1/2. Estoes, 



Pía ^ X B < b) = P 



np 



vVd ~ p) 



Z N 



np 



y/np(\ - p) 



(5.17) 



en donde Z N es N(0.l). 

La aproximación dada por (5.17) puede mejorarse si se turna en cuenta que lo 
que se desea es aproximar probabilidades para una variable aleatoria discreta a par- 
tir del intervalo de probabilidades de una variable aleatoria continua. Por ejemplo, 
se desea determinar la probabilidad de que X tome un valor igual a x. Se sabe que 
para cualquier valor específico x de una variable aleatoria binomial, la probabilidad 
puntual es distinta de cero. Sin embargo, si se emple a la aproximación normal dada 
por el teorema 5.1, P[Z = (x - np)/\Jnp(\ - p)] = 0. En lugar de emplear la 
expresión anterior, se usará la aproximación normal para P(X = x) que determina 
la probabilidad de un intervalo de longitud uno (igual al incremento de la variable 
aleatoria binomial), de manera que el punto medio del intervalo sea igual al valor x. 
Por lo tanto, 



P(X B = x)~P 



x — np 



1/2 



\Jnp(\ - p) 



=£Zv 



x — np + 1/2 
Vnpd - p) 



Como resultado, la expresión (5.17) puede modificarse de la siguiente forma 

- np - 0.5 b - np + 0.5 



P(a <¿X B <íb)**P 



V«Pd - P) 



y/np(l - p) 



(5.18) 



TABLA 5.4 Frecuencias relativas observada y teórica para la demanda diaria de un producto 



Demanda diaria 



Frecuencia 
relativa 



Intervalo normal 
estándar 



Probabilidad 
del intervalo 



(55-64) 


0.0588 


-3.75- -2.92) 


0.0017 


(65-74) 


0.0392 


-2.92- -2.08) 


0.0170 


(75-84) 


0.0588 


-2.08- -1.25) 


0.0868 


(85-94) 


0.1961 


- 1.25- -0.42) 


0.2316 


(95-104) 


0.3137 


-0.42-0.42) 


0.3256 


(105-114) 


0.1765 


(0.42-1.25) 


0.2316 


(115-124) 


0.0588 


(1.25-2.08) 


0.0868 


(125-134) 


0.0588 


(2.08-2.92) 


0.0170 


(135-144) 


0.0392 


(2.92-3.75) 


0.0017 


Totales 


0.9999 




0.9998 
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Ejemplo 5. 7 Una organización política planea llevar a cabo una encuesta para detec- 
tar la preferencia de los votantes con respecto a los candidatos A y B que ocuparán un 
puesto en la administración pública. Supóngase que toma una muestra aleatoria de 
mil ciudadanos. ¿Cuál es la probabilidad de que 550 o más de los votantes indiquen 
una preferencia por el candidato A si la población, con respecto a los candidatos, se 
encuentra igualmente dividida? 



Sea X la variable aleatoria que representa el número de ciudadanos que tienen 
preferencia por el candidato A. La muestra aleatoria de mil votantes puede pensarse 
como un conjunto de ensayos independientes con una probabilidad de éxito, en cada 
ensayo, igual a 0.5 (candidato A), dado que, por hipótesis, la población de votantes 
se encuentra igualmente dividida entre los candidatos. De esta forma, Xes una v a- 
riable aleatoria binomial con media np = 500 y desviación estándar y/np(\ - p) = 
15.81. La probabilidad de que X > 550 se puede aproximar, de manera adecuada, 
mediante ~! empleo de la distribución normal dado que n es suficientemente grande: 
grande: 



P(X > 550) - P[Z N > (549.5 
~P(Z N > 3.13) 
= 0.0009. 



500)/15.81] 






Como la probabilidad de tal hecho es muy pequeña, si p es igual a 0.5 puede con- 
cluirse que A será el ganador en la encuesta, ya que 550 o más personas indicarán una 
preferencia por él. 



5.3 La distribución uniforme 

Supóngase que ocurre un evento en que una variable aleatoria toma valores de un in- 
tervalo finito, de manera que éstos se encuentran distribuidos igualmente sobre el 
intervalo. Esto es, la probabilidad de que la variable aleatoria tome un valor en cada 
subintervalo de igual longitud es la misma. Se dice entonces que la variable aleatoria 
se encuentra distribuida uniformemente sobre el intervalo. 

Definición 5.2 Se dice que una variable aleatoria A" está distribuida uniformemente 
sobre el intervalo (a, b) si su función de densidad de probabilidad está dada por: 



f(x;a, b) = 



1/(6 - a) 




a < .v 



b, 



para cualquier otro valor 



(5.19) 



La función de densidad de probabilidad de una distribución uniforme es cons- 
tante en el intervalo (a, b), como se ilustra en la figura 5.5. Por esto, tal distribución 
también se conoce como distribución "rectangular". 



144 Algunas distribuciones continuas de probabilidad 



/(*) 



1/(6 -a) 



FIGURA 5.5 Gráfica de la función de densidad de probabilidad uniforme 



La función de distribución acumulativa se determina de manera fácil y está dada 



por 



P(Xs x ) = F(x;a,b) = (b 



Ja 



dt 



x < a, 
(x - a)/(b -a) a^x^b, (5.20) 

1 x>b. 

Se sigue entonces que, para cualquier subintervalo (a¡, b t ) interior a (a, b): 

/»(«,£*< 6,) = F(br,a,b) - F{a x ;a,b) 

= (b, - a,)/(b - a). (5.21) 

Este resultado ilustra que la probabilidad de que X tome valores del subintervalo 
(a t , ¿, ) es 1/(6 - á) por la longitud del subintervalo y, de esta forma, igual a la proba- 
bilidad de que A' tome un valor en cualquier otro subintervalo de la misma longitud. 
La distribución uniforme proporciona una representación adecuada para redon- 
dear las diferencias que surgen al medir cantidades físicas entre los valores observados 
y los reales. Por ejemplo, si el peso de un individuo se redondea al kilogramo 
más cercano, entonces la diferencia entre éste y el peso verdadero será algún valor 
entre -0.5 y 0.5 kg. Es común que el error de redondeo se encuentra distribuido uni- 
formemente en el intervalo (-0.5, 0.5). Otro uso de la distribución uniforme es pro- 
porcionar una aproximación clara sobre un intervalo muy pequeño cuya distribu- 
ción es distinta a la uniforme. 

Ejemplo 5. 8 Con respecto al ejemplo 1 . 1 , si se supone que las cuotas se encuentran 
distribuidas de manera uniforme en el intervalo ($81 .5-51 1 1 .5), entonces la función 
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de densidad de probabilidad se determina por: 

f(x; 81.5, 111.5) = 1/30, 81.5 < x < 111.5. 

Se sigue de (5.21) que la probabilidad de que una cuota se encuentre en un subin- 
tervalo de longitud $5 (la amplitud de clase en el ejemplo 1 . 1) es 5/30. En la tabla 5.5 
se proporciona una comparación entre las frecuencias relativas dadas en la tabla 1 . 1 
y las correspondientes probabilidades teóricas, con base en la distribución uniforme. 
Como puede observarse, la concordancia entre las frecuencias teóricas y observadas 
es aparente. 

£1 valor esperado de una variable aleatoria distribuida de manera uniforme es 



E(X) = (b 



Ja 



xdx 



= (a + b)/2. 



(5.22) 



Para obtener los momentos superiores de X, es más fácil trabajar con la variable 
aleatoria Y = X - [(a + b)]/2, que desplaza la media a cero, dado que E(Y) = 
E(X) - [(a + b)]/2. De esta forma: 



/(y;0) = 1/0, -0/2sy<0/2, 



(5.23) 



en donde = b - a. De acuerdo con lo anterior, el r-ésimo momento central de Y 
es igual al r-ésimo momento central alrededor del cero, esto es: 



H r (Y) = n'ÁY) = 0" 



re/2 
J-o/2' 



Ydy 



r + 1 



e/2 



-e/2 



07Kr+ 1)2'] 



si r es impar 
si r es par. 



(5.24) 



TABLA 5.5 Comparación entre las frecuencias teórica y observada para una distribución 
uniforme 



Cuota 


Número 


Frecuencia 


Intervalo 


Probabilidad 


Número 


anual 


observado 


relativa 


uniforme 


del intervalo 


esperado 


82- 86 


3 


0.075 


81.5- 86.5 


0.167 


6.667 


87- 91 


7 


0.175 


86.5- 91.5 


0.167 


6.667 


92- 96 


8 


0.200 


91.5- 96.5 


0.167 


6.667 


97-101 


8 


0.200 


96.5-101.5 


0.167 


6.667 


102-106 


7 


0.175 


101.5-106.5 


0.167 


6.667 


107-111 


7 


0.175 


106.5- II 1.5 


0.167 


6.667 


Totales 


40 


1.000 




1.000 


40.000 
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Dado que ni la varianza ni los factores de forma se ven afectados por el cambio de 
localización, la varianza, el coeficiente de asimetría y la curtosis relativa de la va- 
riable aleatoria distribuida uniformemente se encuentran a partir de (5.24) y están 
determinadas por: 



Var(X) = (b - a) 2 / 12, 
a¿X) = 0, y 

(b - a) 4 /80 



a¿X) 



(5.25) 
(5.26) 

(5.27) 



[(b-a) 2 /]2] 2 5' 
Puede emplearse (5.23) para determinar la desviación media de la siguiente manera: 



E\Y\ = 0- 



20- 



, <>/2 

' ydy 

Jo 



0/4. 



(5.28) 



De esta forma la desviación media de una variable aleatoria distribuida de manera 
uniforme está dada por (b - a)/ A. 

Una distribución uniforme es simétrica y tiene un pico menor que el de la distri- 
bución normal, no tiene moda y su mediana es igual a la media. Los valores cuanti- 
les x q , correspondientes a la proporción acumulativa q, son de manera tal que: 



los que, por (5.20) son: 



F(x q ; a, b) = q, 



a + (b - á)q. 



(5.29) 



En la tabla 5.6 se encuentran resumidas las propiedades de esta distribución. 

Más adelante se examinará el caso especial cuando a = Oyb = 1 . Este último se 
conoce como distribución uniforme sobre el intervalo unitario (0, 1) con función de 



TABLA 5.6 


Propiedades básicas de la distri 


jución uniforme 








Función 


de densidad de probabilidad 




Parámetros 




,/U: «, h) 


= \/(b - «), 


a < x < b 


a. 

b. 




- -*■ < a < * 

-X < /) < x. 




Media 


Varianza 


Desviación 
media 


Valor del 
cuan til 




Coeficiente 

de 
asimetría 


Curtosis 
relativa 


Ui + h)/2 


(b - «)7l2 


(b - a)/4 . 


* q = a + (h - 


u)q 





9/5 
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densidad de probabilidad: 



/U;0, 1) = 1, 0<*<1. 



(5.30) 



Esta distribución es, de manera especial, muy importante ya que tiene un papel clave 
en la simulación por computadora de los valores de una variable aleatoria con una 
distribución específica. 



5.4 La distribución beta 

Una distribución que permite generar una gran variedad de perfiles es la distribución 
beta. Se ha utilizado para representar variables físicas cuyos valores se encuentran 
restringidos a un intervalo de longitud finita y para encontrar ciertas cantidades 
que se conocen como límites de tolerancia sin necesidad de la hipótesis de una distri- 
bución normal. Además, la distribución beta juega un gran papel en la estadística 
bayesiana. Se examinará un ejemplo de lo anterior en el capítulo seis. 

Definición 5.3 Se dice que una variable aleatoria X posee una distribución beta si 
su función de densidad de probabilidad está dada por: 



f(x\ a, p) 



T(a + j8) 
r(a)r(j8) 





'(1 - x) 



,/j-i 



0<jc<1, a, ¿3>0, 



(5.31) 



para cualquier otro valor 



1 



! 



yii 



Las cantidades a y ¡3 de la distribución beta son, ambas, parámetros de perfil. 
Valores distintos de a y ¿3 darán distintos perfiles para la función de densidad beta. 
Sin tanto a como f3 son menores que uno, la distribución beta tiene un perfil en for- 
ma de U. Si a < 1 y /3 > 1, la distribución tiene un perfil de J transpuesta, y si 
/3 < ]y« > 1, el perfil es una J. Cuando tanto a y f3 son ambos mayores que uno, 
la distribución presenta un pico en x = (a - l)/(a + f} -2). Finalmente, la 
distribución beta es simétrica cuando a = j3. En la figura 5.6 se encuentran ilustra- 
dos estos perfiles para valores específicos de a y f3. Nótese que si en (5.31) x se reem- 
plaza por x — 1 , se obtiene la siguiente relación de simetría 



/(l -x;p,a) =j\x;a,p) 



(5.32) 



El nombre de esta distribución proviene de su asociación con la función beta que 
se encuentra definida por 

B(a,fi) = i jc q -'(1 - xf"dx. (5.33) 

Jo 

Puede demostrarse que las funciones beta y gama se encuentran relacionadas por la 
expresión 



B(a, 0) = 



IXa)r(/3) 



(5.34) 
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a = = 2 



0.2 0.4 0.6 0.8 



0.2 0.4 0.6 0.8 






FIGURA 5.6 Gráficas de la función de densidad beta para distintos valores de a y /3 



Mediante el empleo de (5.33) y (5.34), es obvio que (5.31) es una función de densidad 
de probabilidad. Esto es: 



r(g + /3)íy, (1 _ ;cr ^ = r(a + /3) 

U X) ax na)r(j8) 



r(a)r(j8) Jo 



B(a,p)= 1, 



y puesto que /(*; a, /3) es no negativa, (5.31) es una función de densidad de proba- 
bilidad. 

La función de distribución acumulativa se encuentra definida por: 



P(X < x) = F(x; a,f3)=- 





r(a)r(j8) 
1 



x<0, 



^-ffV'ü-rr 1 ^ 0<jc<1, 



(5.35) 



x> 1. 



La integral que aparece en (5.35) es la función beta incompleta: 

B¿a,p) = í f-'(l -tf- ] dt. 
Jo 



(5.36) 



De esta forma, la función de distribución beta puede expresarse como un cocien- 
te de funciones beta incompletas, 



FU; a, j8) = B¿a, B)/B(a, B) 

= I x (a,B) < jc < 1, 



(5.37) 



donde /*(<*, B) se encuentra tabulada de manera extensa (véase [5,6]). En [5], los 
valores cuantiles x son aquellos para los que /,(a, B) es igual a 0.0025, 0.005, 0.01, 
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0.025, 0.05, 0-1 » 0.25 y 0.5 para las distintas combinaciones de a y j3. Con el fin de 
encontrar los valores cuantiles correspondientes a puntos de alto porcentaje, consi- 
dérese lo siguiente: 

P(X < x) = P(l - X > 1 - x) 

= 1 -P(l -X<\ - x); 

entonces, por la relación de simetría (5.32): 

F{x;a,p) = 1 -F(l -jr;/3,a) 
o 

Ü«,J8)= 1 -/,_,(/3,a). (5.38) 

De esta manera, los valores cuantiles para los puntos de alto porcentaje se en- 
cuentran al intercambiar a y /3 y toman el punto de porcentaje igual a 1 — x. A ma- 
nera de ilustración, sea X una variable aleatoria beta con a = 2 y /3 = 4; los valores 
cuantiles 90, 95 y 99 son 0.58389, 0.65741 y 0.77793, respectivamente. En la tabla 5.7 
se proporcionan los valores cuantiles para combinaciones de valores de a y /3 que dan 
origen a los distintos perfiles de la distribución beta. 

Es más fácil obtener los momentos de la variable aleatoria beta mediante el empleo 
del método directo, que por el uso de la función generadora de momentos, debido a 
que esta última no tiene una forma sencilla. En particular, se encontrará una expre- 
sión general que permita obtener el /--ésimo momento alrededor del cero y después 
emplearla para obtener los momentos restantes: 



l(an(B) Jo 

' B(a + r, )8) 



Como resultado, 



E(X) 



r(a)r(/8) 
T(a + /8) 

r(a)r(/8) 

Ha + b) r(a + rWjp) 

r(a)r(j8) ' T(a + /3 + r) 
Ua + fi)r(a + r) 

r(o)r(a + /8 + /■)" 

Ha + j8)r(a + 1) 
r(a)Ua + fi + 1) 
a 



(5.39) 



Vflz-(A') = 



a + /3' 
a(a + I) 



(5.40) 



(a + 0)(a + + 1) (a + /3)" 
a/3 



(a + /3) 2 (a + /3 +1)' 



(5.41) 
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TABLA 5.7 Valores de cuantiles beta para distintas combinaciones dea y]3 



¿OÍS 



•*0.50 



•Í0.75 



a = jB = 1/2 

a = 1/2, p = 2 

a = 2, p = 1/2 

a = 4, = 6 



0.14645 


0.50000 


0.85355 


0.02831 


0.12061 


0.31122 


0.68878 


0.87939 


0.97169 


0.29099 


0.39308 


0.50199 



Al seguir este procedimiento y después de efectuar el álgebra necesaria, el coeficiente 
de asimetría y la curtosis relativa para la distribución beta están dadas por: 



a 4 (X) = 



2(jB -a) y/a + jB.+ 1 

a,(A) = -= , 

V<*y3 (a + y3 + 2) 

3(a + jB + l)[2(a + ¡3) 2 + afija + jB - 6)] 
afta + (3 + 2)(a + + 3) 



(5.42) 



(5.43) 



Mediante el examen de (5.42) puede observarse que la distribución beta es simétrica 
sólo si a = j3, tal y como ya se habia mencionado. Si a < (3, la distribución tiene 
un sesgo positivo y si a > ¡3, la distribución presenta un sesgo negativo. 

En la tabla 5.8 se proporciona un resumen de las propiedades de la distribución 
beta. 

Algunas áreas, en las que se emplea la distribución beta como modelo de proba- 
bilidad incluyen la distribución de artículos defectuosos sobre un intervalo de tiempo 
específico; la distribución del intervalo de tiempo necesario para completar una fase 
de proyecto en PERT, evaluación de programas y técnicas de revisión, (en este caso 
se emplea la distribución beta generalizada; véase [14]); la distribución de la propor- 
ción de los valores que deben caer entre dos observaciones extremas. 



TABLA 5.8 Propiedades básicas de la distribución beta 



Función de densidad de probabilidad 



Parámetros 



Ha + B) 
/(.v;a./3) = ~x" 

< \ < I 



'(I 



a. 
P. 



a > 
P>0 



Media 


Varianza 






Coeficiente 
de asimetría 


Curtosis 
relativa 




ap 










a 


UP - a)\/a + P + 1 
\/ap~ (a + P + 2) 




a + p 


(a + pfya + P 


+ 


1) 





*M« + fi + l)|2<« + ¡i) 1 f afi(a ■+ fi - 6)| 
afUa + ¡i +■ 2)(« + fi + 3) 
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La esencia de esta última área tiene relación con los limites estadísticos de tole- 
rancia. Estos límites son muy importantes, especialmente en el control estadístico de 
calidad donde el control de variabilidad de un producto es esencial. Este control, en 
general, se lleva a cabo mediante la medición de algunas propiedades del producto o 
determinando los ajustes que deben hacerse al proceso de producción para mejorar 
la calidad del producto. Los límites estadísticos de tolerancia no son iguales a las to- 
lerancias físicas o especificaciones límite. Éstos son' conjuntos de criterios diseñados 
para un proceso de producción en particular y que se espera que todas las unidades 
cumplan. Los límites estadísticos de tolerancia se tratarán en el capítulo ocho. 

Puede demostrarse que si la suma de los parámetros que determinan el perfil de la 
distribución beta es, de manera relativa, grande, la función de distribución acumulati- 
va beta (5.35) se puede aproximar de manera adecuada por la diferencia de dos fun- 
ciones de distribución normal estándar. Esto es: 



F(x; a, p) » F„(z u ; 0, 1) - F N (z ( ; 0, 1), 



(5.44) 



en donde: 



z u = 



Zt = 



[p] -0.5 - (a + j3 - 1)(1 - jc) 
[(a + j8 - lKxXl - *)]"* ' 

(a + j8 - 1X1 - x) + 0-5 
'[(a + j3- l)«(i -jc)] ,/2 ' 



y [p] denota el entero más grande que no excede a p. En la tabla 5.9 se tiene una 
comparación entre los valores de la función beta dados por (5.35) con aquéllos pro- 
porcionados por (5.44). Para cada valor x, el primer renglón correspondiente a ésta 
es el valor exacto de la distribución beta y el siguiente es el que proporciona (5.44). 
Para valores distintos de los finales, la aproximación es adecuada. Sin embargo, nó- 
tese que la discrepancia en los valores superiores disminuye conforme la suma de a y 
es más grande. 



TABLA 5.9 Comparación entre las funciones de distribución beta y normal 



X 


a = /3 = 5 


a = 10, /3 = 5 


a = 10, /3 = 15 


0.10 


0.0008909 


0.0000001 


0.0000521 




0.0000317 


0.0 


0.0000007 


0.25 


0.04893 


0.0003419 


0.05466 




0.04182 


0.0001078 


0.04947 


0.50 


0.50 


0.08978 


0.8463 




0.4996 


0.09009 


0.8461 


0.75 


0.95107 


0.74153 


0.99989 




0.94118 


0.72564 


0.99886 


0.90 


0.9991091 


0.99077 


1.0 




0.9405883 


0.95160 


0.9756 
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5.5 La distribución gama 

Otra distribución de gran uso es la distribución gama. Entre los muchos usos que 
esta distribución tiene se encuentra el siguiente: supóngase que una pieza metálica se 
encuentra sometida a cierta fuerza, de manera que se romperá después de aplicar un 
número específico de ciclos de fuerza. Si los ciclos ocurren de manera independiente 
y a una frecuencia promedio, entonces el tiempo que debe transcurrir antes de que el 
material se rompa es una variable aleatoria que cumple con la distribución gama. 

Definición 5.4 Se dice que la variable aleatoria X tiene una distribución gama si su 
función de densidad de probabilidad está dada por: 



1 







x a ~'e\p(-x/9) x>0, a,0>0 



f(x; a, 9) = • 
en dond° T(a) es la f unción gama definida en el capítulo tres. 



(5.45) 
para cualquier otro valor, 



La distribución gama es muy versátil puesto que exhibe varios perfiles que de- 
penden del valor del parámetro a. En la figura 5.7 se ilustran distintos perfiles de la 
función de densidad gama para distintos valores de a y 6. Como puede observarse, 
para a =£ 1, la distribución gama tiene un perfil en forma de J transpuesta. Para 



A*) 




0.7 




0.6 


4 a= 1 




1 0= 1 


0.5 




0.4 




0.3 




0.2 




0.1 





FIGURA 5.7 Gráficas de la función de densidad gama para distintos valores deoyí 
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a > 1, presenta un pico que ocurre en x = 6(a - 1). Para un valor fijo de , el 
perfil básico de la distribución gama no se altera si el valor de a cambia. Lo anterior 
da como resultado que las cantidades a y son los factores de forma y de escala, 
respectivamente, de la distribución gama. [ 

Esta distribución se emplea de manera extensa en una gran diversidad de áreas; 
por ejemplo, para representar el tiempo aleatorio de falla de un sistema que falla sólo 
si de mañera exacta los componentes fallan y la falla de cada componente ocurre 
a una frecuencia constante \ = 1/0 por unidad de tiempo. También se emplea en 
problemas de lineas de espera para representar el intervalo total para completar una 
reparación si ésta se lleva a cabo en subestaciones; completar la reparación en cada 
subestación es un evento independiente que ocurre a una frecuencia constante igual 
a X = 1/6. Existen algunos ejemplos que no siguen el patrón anterior, pero que se 
aproximan de manera adecuada mediante el empleo de la distribución gama, como 
los ingresos familiares y la edad del hombre al contraer matrimonio por primera vez. 

Mediante el empleo de la función gama dada por (3.5), puede demostrarse que 
(5.45) es una función de densidad de probabilidad. Para hacerlo, considérese un 
cambio de variable de integración, tal que u = x/6, x = du, y dx = 6du\ en- 
tonces: 

=¿r wa " ,exp( - w)í/w=i ' 

dado que T(a) = JÓ u a ~ ] exp( — u)du. 

Con un procedimiento similar se demuestra que el r-ésimo momento alrededor 
del cero es: 



= ^í ua+r ~^' u)du 



0T(t* + r) 



(5.46) 



Ha) 
Se sigue, por lo tanto, que: 

E{X) = ad (5.47) 

y 

Var(X) = a0 2 (5.48) 

Además, después de obtener los momentos centrales apropiados, se puede demostrar 
que el coeficiente de asimetría es 

a¿X) = 2/V«. (5 - 49) 
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y la curtosis relativa está dada por: 

a¿X) = 3Í 1 + \ (5.50) 

Nótese que a partir de los factores de forma (Xt,(X) y a 4 (X), la distribución gama 
tiene un sesgo positivo y mas picos que la distribución normal, puesto que a 4 (X) > 3 
para cualquier a > 0. Sin embargo, también debe notarse que conforme el pará- 
metro a se hace cada vez más grande, el sesgo se convierte en menos pronunciado y 
la curtosis relativa tiene el tres como valor límite. De hecho, para valores grandes de 
a la distribución gama puede aproximarse, en algún grado, por una distribución 
normal. Esto es, la variable aleatoria 

Z = {X - ad)/d^/a (5.51) 

es, de manera aproximada, igual a la normal estándar para valores grandes de a. 
La función generadora de momentos para la variable aleatoria gama A' está dada 
por: 

E[cxp«X)] = —i— í j-'expl-O - 8t)x/d]dx. 
1 (a)u Jo 

Sea M = (i - et)x/6, x = u6/(l - 6t), y dx = [«9/(1 - 6t)\du. Entonces: 
Eíexpí*)] = ^ [ ^f^pr exp( - u) ^^ du 

= r(« ) (i 1 -^r/o" a " exp( - í/)í/ " 

= (1 - etr a , 0</< 1/(9. (5.52) 

La función de distribución acumulativa se determina por la siguiente expresión: 

F(x; a, 8) = — \- \ t a ~ 'exp( - t/d)dt, x>0. (5.53) 

Se tabularon muchas versiones de (5.53). Por ejemplo, si se efectúa el cambio de va- 
riable u = t/6 de manera tal que / = 6u y dt = Odu, entonces (5.53) toma la si- 
guiente forma: 

1 f- v/ " 

F < x > a - B) = FT~7^ {du) " ' ' ex P ( _ " )edu 
T(a)(? Jo 

1 í v/ " 

u" 'exp(-«)c/H. 



La integral /;/" u" ' 'exp( - »)t/» se conoce como la función gama incompleta y 
se denota, generalmente, por y(x/d; a). El cociente de y(x/8; a) y de la función 
gama completa T(a) recibe el nombre de cociente de la función gama incompleta y 
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se encuentra tabulado en [8] para distintos valores de x/6 y a. De acuerdo con lo 
anterior, la función gama de distribución acumulativa se escribe como: 



P(X < x) = F(x; a, 0) = y(x/6; a)/r(a). 



(5.54) 



En [7] se encuentra una tabla muy extensa de los valores de una función equivalente 
a (5.53), dada por: 



I(u, p) = F(x; a, 0), 



(5.55) 



donde u - x/9\/a y p = a - l. Debe notarse que si el parámetro de forma a es 
un entero positivo, (5.55) se puede expresar, en forma cerrada: 



FU; a, 0) = 1 - 



l + ~e + m + 



+ 



1 



(a - 1)!\0 



exp(-*/0) (5.56) 



como resultado de efectuar varias integraciones por partes. También el valor cuantil 
x q para el que F{x q \ a, 6) = q no puede determinarse de manera directa; éste 
puede interpolarse a partir de los valores que aparecen en las tablas dadas en [7] /x 
[8]. En la tabla 5.10 se da un breve resumen de las propiedades básicas de la distribu- 
ción gama. 

Ejemplo 5.9 Supóngase que cierta pieza metálica se romperá después de sufrir dos 
ciclos de esfuerzo. Si estos ciclos ocurren de manera independiente a una frecuencia 
promedio de dos por cada 100 horas, obtener la probabilidad de que el intervalo de 
tiempo se encuentre hasta que ocurre el segundo ciclo: a) dentro de una desviación 
estándar del tiempo promedio, y b) a más de dos desviaciones estándar por encima 
de la media. 



Sea X la variable aleatoria que representa el lapso que transcurre hasta que la 
pieza sufre el segundo ciclo de esfuerzo. Si atiene una distribución gama con a = 2 
y = 50 horas debido a que la frecuencia promedio es 0.02 por hora. La fun- 



TABLA 5.10 Propiedades de la distribución 


gama 






Función de densidad de probabilidad 




Parámetros 


ñx\ a, 0) = Fr^* ~'exp( -x/6) 
x>0 




9, 


a >0 
0>O 


Media Varianza 


Coeficiente 
de asimetría 




Curtosis relativa 


ad , aO 2 


2/V« 




>H) 
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ción de densidad de probabilidad es 

_1_ 

r(2)50 2 

y la función de distribución acumulativa dada por (5.56) se reduce a: 



f(x;2, 50) = í^— 5 x exp( - jf/50), x > 0, 



F(jr; a, 6) = 1 - í 1 + ^jexp(-Jt/50), x > 0. 

De (5.47) y (5.48), los valores de la media y de la desviación estándar de Jfson 100 y 
70.71, respectivamente. De acuerdo con lo anterior: 

P{/jl - o- < X < n. + o-) = PO.9.29 <X< 170.71) 

= F( 170.71; 2, 50) - F(29.29; 2, 50) 

= 0.7376. 

Ñútese que la probabilidad de que el lapso sea menor de una desviación estándar 
por debajo de la media es de 0. 1 172 y la probabilidad de que éste sea más grande que 
la media por una desviación estándar es 1 - 0.8548 = 0.1452. Finalmente: 

P(X > fi + 2o-) = P(X > 241.42) 

= 1 - ^(241.42; 2, 50) 

= 0.0466. 

Ejemplo 5.10 Para demostrar el grado de concordancia entre las distribuciones 
normal y gama, se seleccionaron, para esta última, los valores de 3.5 y 7 para el pará- 
metro de forma a, y para 5=10, calculándose las funciones de distribución acu- 
mulativa para distintos valores de las correspondientes variables aleatorias. La in- 
formación anterior se encuentra en la tabla 5.11. 

A partir de la información dada en la tabla 5.11, es evidente que la función de 
distribución acumulativa normal sobreestima los valores dados por la correspon- 
diente función de distribución acumulativa gama en los extremos, mientras que la 
subestima alrededor de la media. Lo anterior es válido para los dos valores de a; sin 
embargo, para a = 7, la concordancia en los extremos es considerablemente mejor 
que cuando a = 3.5. Como resultado, se espera que la concordancia aumente para 
valores de a más grandes que siete. 

Cuando a es un entero positivo, la distribución gama también se conoce como 
distribución de Erlang en honor del científico danés que la usó por primera vez a 
principios del año 1900 a fin de establecer resultados útiles para problemas de tráfico 
en líneas telefónicas. Existe una asociación entre los modelos de probabilidad de 
Poisson y de Erlang. Si el número de eventos aleatorios independientes que ocurren 
en un lapso específico es una variable de Poisson con una frecuencia constante de 
ocurrencia igual a 1/0, entonces para una a, el tiempo de espera hasta que ocurre el 
a-ésimo evento de Poisson tiene una distribución de Erlang. Este resultado se sigue 
al hacer una comparación entre las funciones de distribución acumulativa de los mo- 
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TABLA 5.11 Comparación entre las funciones de distribución acumulativa gama y normal 



a 


= 3.5, e 


= 10, p = 
o- = 18.71 


2.5; ft = 35, 


a 


= 1,9 


= 10, p = 6; 
ar = 26.46 


ft = 70, 






Gama 


Normal 






Gama 


Normal 


X 


u 


/(«, P) 


F(x; fi, a-) 


X 


u 


/(«, P) 


F(x; ii, cr) 











0.0307 











0.0041 


5 


0.27 


0.0058 


0.0516 


10 


0.38 


0.000098 


0.0116 


10 


0.53 


0.0397 


0.0902 


20 


0.76 


0.004865 


0.0294 


15 


0.80 


0.1144 


0.1423 


30 


1.13 


0.0431 


0.0655 


20 


1.07 


0.2209 


0.2119 


40 


1.51 


0.1103 


0.1292 


25 


1.34 


0.3417 


0.2981 


50 


1.89 


0.2380 


0.2236 


30 


1.60 


0.4587 


0.3936 


60 


2.27 


0.3946 


0.3520 


35 


1.87 


0.5706 


0.5000 


70 


2.65 


0.5518 


0.5000 


40 


2.14 


0.6678 


0.6064 


80 


3.02 


0.6853 


0.6480 


45 


2.41 


0.7485 


0.7019 


90 


3.40 


0.7928 


0.7764 


50 


2.67 


0.8107 


0.7881 


100 


3.78 


0.8698 


0.8708 


55 


2.94 


0.8612 


0.8577 


110 


4.16 


0.9215 


0.9345 


60 


3.21 


0.8997 


0.9098 


120 


4.54 


0.9544 


0.9706 


65 


3.47 


0.9274 


0.9485 


130 


4.91 


0.9739 


0.9884 


70 


3.74 


0.9486 


0.9693 


140 


5.29 


0.9857 


0.9959 


75 


4.01 


0.9640 


0.9838 


150 


5.67 


0.9924 


0.9987 


80 


4.28 


0.9750 


0.9920 


160 


6.05 


0.9960 


0.9997 



délos de Poisson y de Erlang dadas por (4.17) y (5.56), respectivamente. Esto es, la 
probabilidad de que ocurran a lo más a - 1 eventos de Poisson en un tiempo x a una 
frecuencia constante 1/0 se desprende de (4.17) y está dado por: 



F P (a - l;x/0) = 



,+ MG) 



e 



\ 2 



1 



(a - 1)!\0, 



exp(-x/0). 



Por otro lado, si se supone que el tiempo de espera sigue el modelo de Erlang, la 
probabilidad de que el tiempo de espera hasta que ocurra el a-ésimo evento exceda 
un lapso x específico, está determinado por: 



P(X>x) = 1 - F t (x;a,0) 

1 

+ 



e 2\\e 



(a - 1)!\0 



exp( - r/0) 



1 + - + -f'-l + ••• + 

6 2!\0/ (a - 1)!\0 



= F/Aa- \:x/0). 



exp(--v/0) 



(5.57) 
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En otras palabras, la probabilidad de que el tiempo que transcurre hasta el 
a -ésimo evento exceda el valor x es igual a la probabilidad de que el número de even- 
tos de Poisson observados en x no sea mayor que a - 1 . De esta forma, la distribu- 
ción de Erlang es el modelo para el tiempo de espera hasta que ocurre el a -ésimo 
evento de Poisson, y la distribución de Poisson es el modelo para el número de even- 
tos independientes que ocurren en un tiempo x, encontrándose éste distribuido de 
acuerdo con el modelo de Erlang. En este contexto, 1/0 es la frecuencia constante 
de ocurrencia y 6 es el tiempo promedio entre dos ocurrencias sucesivas. 

Cuando el parámetro de forma a es igual a uno, la distribución de Erlang (gama) 
se reduce a lo que se conoce como la distribución exponencial negativa. Esta distri- 
bución se emplea de manera extensa para representar lapsos aleatorios de tiempo y 
se trata con gran detalle en una sección subsecuente de este capitulo. Sin embargo, 
nótese que la variable aleatoria de una distribución exponencial negativa puede pen- 
sarse como el lapso que transcurre hasta el primer evento de Poisson. De acuerdo 
con lo anterior, la variable aleatoria de Erlang es la suma de variables aleatorias in- 
dependientes distribuidas exponencialmente. 

Otro caso especial del modelo de probabilidad gama es la distribución chi- 
cuadrado. Si se reemplaza en (5.45) el parámetro de forma a con v/2 y el pará- 
metro de escala 8 con 2, el resultado es la función de densidad de probabilidad de 
una variable aleatoria chi-cuadrado y se determina por: 



f(x; v) = { 



„»/2- I 



exp(-.v/2) .v > 0, 



l>/2)2" /2 ~" ry "' ' "" (5.58) 

para cualquier otro valor. 



La distribución chi-cuadrado se encuentra caracterizada por un solo parámetro v, 
que recibe el nombre de grados de libertad. Como se verá, esta distribución inter- 
viene en la inferencia estadística y de manera especial al hacer inferencias con respec- 
to a las varianzas. Se emplea, de manera general, la notación X ~ xl para indicar 
que una variable aleatoria tiene una distribución chi-cuadrado con v grados de li- 
bertad. 

La función de distribución acumulativa está dada por: 

P(X < .v) = r{v } 2)T , 2 1 f' 2 - ' exp( - t/2)dt x > 0, (5.59) 

y se encuentra tabulada de manera extensa. En la tabla E del apéndice se encuentran 
los valores cuantiles .y, _„„, de manera que 

P(X^X^„„) = i ' "f(x;i>)dx = 1 - a 

Jo 

para algunas proporciones acumulativas seleccionadas 1 - a* y distintos valores 
de v. A manera de ilustración, si v = 10, 

* En este contexto, la introducción de la cantidad a, s a £ I . sirve para facilitar una discusión poste- 
rior de un concepto que recibe el nombre de "probabilidad del error de tipo I", que de manera general 
se denota por «. 
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PiX < xoouo) = P(X ^ 2.55) = 0.01 , 
P(X s Xa0SJ0 ) = P(X < 3.94) = 0.05, 

, P(X < x 0MM ) = P(X < 18.31) = 0.95, 

Y P(X < x aw . l0 ) = P(X < 23. 19) = 0.99. 

Los momentos de la distribución chi-cuadrado se obtienen a partir de (5.47) a 
(5.50) y están dados por: 

E(X) = v, 

Var(X) = 2v, 

..«,(*) = 4/ V2^, 



a 4 (*) = 3ll +-I. 

Análogamente y a partir de (5.52), la función generadora de momentos para la 
distribución chi-cuadrado es: 



m x (t) = (1 - 2í) 



-I//2 



0< í<-. 

2 



(5.60) 



Nótese que una característica interesante de la distribución chi-cuadrado es que el 
valor de su varianza es dos veces el valor de su media. Además, como está distribu- 
ción es un caso especial de la distribución gama, presenta un sesgo positivo y un pico 
mayor que el de una distribución normal, pero el coeficiente de asimetría tiende a 
cero y a una curtosis relativa igual a tres conforme v tiende al infinito. 



4, 

í 



¡i i 



5.6 La distribución de Weibull 

La distribución de Weibull fue establecida por el físico suizo del mismo nombre, 
quien demostró, con base en una evidencia empírica, que el esfuerzo al que se someten 
los materiales puede modelarse de manera adecuada mediante el empleo de esta dis- 
tribución [9]. En los últimos 25 años esta distribución se empleó como modelo para 
situaciones del tipo tiempo-falla y con el objetivo de lograr una amplia variedad de 
componentes mecánicos y eléctricos. 



m 
m 



Definición 5.5 Se dice que una variable aleatoria X tiene una distribución de 
Weibull si su función de densidad de probabilidad está dada por: 



ftx; a, 0) = i 



x a -'exp[-(x/6) a ] x>0; a, 6 > 0, 



(5.61) 
para cualquier otro valor. 



La distribución de Weibull es una familia de distribuciones que dependen de dos 
parámetros: el de forma a y el de escala 8. Se puede introducir un parámetro adi- 
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* i 



cional al reemplazar la variable aleatoria de Weibull X por X - a, en donde a es un 
parámetro de localización que representa un valor umbral o tiempo de garantía. En 
la figura 5.8 se muestran varias gráficas de la distribución de Weibull para distintos 
valores de a y 6, y como puede observarse, esta distribución tiene distintos perfiles 
dependiendo del valor de a. Por ejemplo, si a < 1, (5.61) tiene una forma de J 
transpuesta, y si a > 1 , la función de densidad de Weibull presenta un pico único. 
La función de distribución acumulativa de Weibull 



F(x;a,8) = ^j o t°- , exp[- 



U/e) a ]dt 



(5.62) 



puede obtenerse en forma cerrada mediante la evaluación directa de la integral en 
(5.62). Esto es: 



F(x;a,6) = ~í-^^xp[-(t/e) a ] 



= 1 - exp[ -(*/(?)"], x¡ 
De (5.63), el valor cuantil x q es: 

1 - exp[-(V0)"] = <7 

x q = -0[ln(l - q)V 
I 



0. 



6 



ln 



En particular, la mediana de una variable aleatoria de Weibull es: 

¿es = 0[ln(2)] ,A \ 



(5.63) 



(5.64) 



(5.65) 



/(*) 




a = 


= 0.8 






0.8 
0.6 




10 = 


= 1 


a=2 

Vfl = i 




0.4 










a=2 


0.2 






i 


1^ 


^^0 = 2 



FIGURA 5.8 Gráficas de la función de densidad de Weibull para distintos valores de a y 
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Los momentos y los factores de una variable aleatoria de Weibull se encuentran 
primero al determinar el r-ésimo momento central alrededor del cero: 

/*; = E(X r ) = í xj{x; a, 6)dx 
Jo 

x a+r - ] expl-(x/d) a ]dx. (5.66) 

o 

En (5.66), sea u = (x/d) a ; entonces x = du l/a y dx = (d/a)u l/a ~ i du. El resulta- 
do es: 

¿ = í\ W" ila y"-'exv{-u)-u Ua ->du 
a Jo a 

= d r f u r/a exp(-u)du 

Jo 



= 0T 1 + 



a 



De (5.67), la media de X es: 



E(X) = 0f 1 + 



y la varianza de X es el resultado de evaluar 
Var(X) = é 



r|i +-) -r 2 (i +- 

a \ a 



(5.67) 



(5.68) 



(5.69) 



Mediante el empleo del mismo procedimiento pueden determinarse el coeficiente 
de asimetría y la curtosis relativa. Éstos se encuentran en la tabla 5.12. Los facto- 



TABLA 5.12 Propiedades básicas de la distribución de Weibull 



Función de densidad de probabilidad 



Parámetros 



f(x;a,0) = —x'- l exp[-(x/er] 







x>0 




0, 0>O 




Media 


Varianza 


Valor del 
cuantil 


Coeficiente 
de asimetría 


Curtosis 


»r(, t l) „. 


[ r (, 


♦M'-¿)] 


*' = K - J] 


* 


** 



*<* } (X) 



T(l + 3/a) - 3r(l + l/a)rg +2/a) + 1V(\ + l/a) 

[r<i + n a ) - r 2 a + \/ a )]" 2 



, _ r(l + 4/a) - 4r(l + l/a)r(l + 3/a) 6r 2 (l + l/«)r(l + 2/a) - 3r 4 (l + l/a) 

_ [fd + 2/a) - r'(l + l/a)] 2 + [f(l + 2/a) - T 2 (l + l/a)l 2 
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TABLA 5.13 

normal 



Comparación entre las funciones de distribución acumulativa de WeibulI y 





a = 


2.25; = 10 


a = 


3.6; = 10 


a = 


5.83; = 10 






Normal 




Normal 




Normal 


X 


WeibulI 


(8.858, 4.128)* 


WeibulI 


(9.01, 2.788)* 


WeibulI 


(9.267, 1.828)* 








0.01578 





0.000619 








1 


0.005608 


0.02872 


0.000251 


0.002052 


0.000001 


0.000003 


2 


0.026395 


0.04746 


0.003041 


0.006037 


0.000084 


0.000034 


3 


0.0644 


0.0778 


0.013025 


0.01539 


0.000894 


0.000302 


4 


0.1195 


0.1190 


0.036259 


0.03593 


0.004775 


0.001988 


5 


0.1896 


0.1762 


0.0792 


0.07493 


0.017425 


0.009903 


6 


0.2716 


0.2420 


0.1470 


0.1401 


0.049616 


0.03673 


7 


0.3612 


0.3264 


0.2419 


0.2358 


0.1175 


0.1075 


8 


0.4541 


0.4150 


0.3610 


0.3594 


0.2384 


0.2451 


9 


0.5457 


0.4880 


0.4956 


0.5000 


0.4179 


0.4404 


10 


0.6321 


0.6064 


0.6S21 


0.6368 


0.6321 


0.6554 


11 


0.7104 


0.6985 


0.7557 


0.7611 


0.8250 


0.8289 


12 


0.7785 


0.7747 


0.8545 


0.8599 


0.9447 


0.9332 


13 


0.8355 


0.8413 


0.9236 


0.9236 


0.9901 


0.9793 


14 


0.8814 


0.8925 


0.9652 


0.9641 


0.999184 


0.9952 


15 


0.9171 


0.9319 


0.9865 


0.9842 


0.999976 


0.999155 



* Media y desviación estándar 



res de forma pueden granearse como funciones del parámetro de forma de la distri- 
bución de WeibulI (véase [2]). Estas gráficas revelan lo siguiente: la distribución de 
WeibulI es simétrica sólo si a = 3.6; si a > 3.6, la distribución tiene un sesgo ne- 
gativo y si a < 3.6, se encuentra sesgada positivamente. La curtosis relativa se en- 
cuentra cercana a la de la distribución normal que es de tres cuando a tiene un valor 
cercano a 2.25 o a 5.83. En la tabla 5.13 se proporciona una comparación entre las 
funciones de distribución acumulativa de WeibulI y normal, con un a correspon- 
diente a la distribución de 2.25 , 3 .6 y 5 .83 y con un factor de escala 6 = 1 0. La con- 
cordancia parece ser relativamente buena tanto en los valores extremos como en el 
centro, especialmente para a = 3.6 y 5.83. De esta forma, la distribución de 
WeibulI puede aproximarse, de manera adecuada, por una distribución normal cada 
vez que el factor de forma a se encuentre cercano a estos valores. 

En la tabla 5.12 se encuentran resumidas propiedades de la distribución de 
WeibulI. 

Existen dos casos especiales en la distribución de WeibulI que merecen mención 
especial. Cuando el parámetro de forma es igual a uno, la distribución de WeibulI (al 
igual que la gama), se reduce a la distribución exponencial negativa. Cuando a = 2 
y el parámetro de escala 6 se reemplaza por y/2 cr, la función de densidad de 
WeibulI (5.61) se reduce a: 



* 






f(x\ cr 2 ) = — exp( -x 2 /2a 2 ) x > 0, 



cr 



(5.70) 
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que es la función de densidad de probabilidad de lo que se conoce como distribución 
de Rayleigh. 

Ejemplo 5.11 Un fabricante de lavadoras garantiza sus productos contra cual- 
quier defecto durante el primer año de uso normal. El fabricante ha estimado un 
costo por reparación de $75 durante el periodo de garantía. Con base en la experien- 
cia, se sabe que el tiempo en que ocurre la primera falla es una variable aletoría de 
Weibull con parámetros de forma y escala iguales a 2 y 40, respectivamente. Si el 
fabricante espera vender 100 mil unidades y si, para una misma unidad, se descuenta 
el valor de las reparaciones, se determina el costo esperado de la garantía para el 
fabricante. 

Sea X la variable aleatoria que representa el tiempo que transcurre hasta que se 
presenta la primera descompostura. Por hipótesis, la función de densidad de proba- 
bilidad de X es: 



/(jc;2,40) = — 2 xexp[-(x/40) 2 ], 



x> 0. 



La probabilidad de que la primera descompostura ocurra durante el periodo de 
garantía es igual a la probabilidad de que X sea menor o igual a 12. Mediante el 
empleo de (5.63), esta probabilidad es: 

P(X< 12) = 1 - exp[-(12/40) 2 ] = 0.0861. 

Por lo tanto, si se supone que la operación de las lavadoras es independiente entre sí, 
se pueden esperar (100 000)(0.861) = 8610 de fallas durante el tiempo de garantía 
con un costo total de $645 750. 



5.7 La distribución exponencial negativa 

Se ha notado con anterioridad que la distribución exponencial (negativa) es un caso 
especial de los modelos de Weibull y gama. Ya que es un caso especial de la distribu- 
ción gama (Erlang), la variable aleatoria exponencial es el tiempo que transcurre 
hasta que se da el primer evento de Poisson. Es decir, la distribución exponencial 
puede modelar el lapso entre dos eventos consecutivos de Poisson que ocurren de 
manera independiente y a una frecuencia constante. Esta distribución se emplea con 
bastante frecuencia con objeto de modelar problemas del tipo tiempo-falla y como 
modelo para el intervalo en problemas de líneas de espera. Posteriormente se de- 
mostrará que la distribución exponencial no tiene "memoria". Es decir, la probabi- 
lidad de ocurrencia de eventos presentes o futuros no depende de los que hayan 
ocurrido en pl pasado. De esta forma, la probabilidad de que una unidad falle en un 
lapso específico depende nada más de la duración de éste, no del tiempo en que la 
unidad ha estado en operación. 
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Definición 5.6 Si una variable aleatoria X tiene una distribución exponencial, su 
función de densidad de probabilidad está dada por: 



/(*; 9) = 



-c\p{-x/d) x>0, 0>O, 

9 (5 - 7l) * 

L para cualquier otro valor. § 



La distribución exponencial se caracteriza por un parámetro 9, que representa el 
lapso promedio de tiempo entre dos eventos independientes de Poisson. En el con- 
texto de la confiabilidad, 6 recibe el nombre de tiempo promedio entre fallas, y 1/6 
es la frecuencia de falla. La función de distribución acumulativa se obtiene directa- 
mente de los modelos de Weibull o de Erlang y está determinada por 

P(X < jc) = F{x; 8) = 1 - exp(-x/0). (5.72) 

Las expresiones para los valores cuantiles, momentos y factores de forma para esta 
distribución, se obtienen de las correspondientes expresiones para la distribución de 
Weibull con a = 1. Estoes: 

x q = 0ln[l/(l - q)], 

E{X) = e, 

VariX) = d 2 , 

<*i(X) = 2, y 

a¿X) = 9. 

En problemas de confiabilidad, generalmente el interés recae en determinar el 
tiempo de vida promedio de un componente o de un sistema de éstos. El problema 
esencial consiste en identificar la distribución de probabilidad de la variable aleatoria 
que, de manera adecuada, proporciona un modelo para el tiempo de falla. En esta 
línea, una cantidad muy útil es la función de confiabilidad. 

Definición 5.7 Sea Tuna variable aleatoria que representa el tiempo de vida de un 
sistema y sea f(t) la función de densidad de probabilidad de T. La función de con- 
fiabilidad del sistema a tiempo t, R(t), es la probabilidad de que el lapso de dura- 
ción del sistema sea mayor que un tiempo / dado. De acuerdo con lo anterior, 

R(t) = P(T> t) = 1 - F(t), t > 0. (5.73) 

Otra cantidad muy útil para seleccionar una función de densidad de probabilidad 
para el lapso de vida medio de una unidad (o sistema) es la frecuencia de falla o fun- 
ción de riesgo, que se define de la siguiente forma: 

Definición 5.8 Sean/f^ y R(t) las funciones de densidad de probabilidad y de 
confiabilidad, respectivamente, de una unidad en un tiempo dado /. La. frecuencia 
de falla h(t) se define como la proporción de unidades que fallan en el intervalo 
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(/, / + di) con respecto a las que siguen funcionando a tiempo /, y está determinada 
por: 

h(t) = f(t)/R(t). (5.74) 

Si se conoce la frecuencia de falla, es posible determinar la función de densidad 
de probabilidad de la variable aleatoria. Dado que R(t) = 1 - F(t), mediante di- 
ferenciación con respecto a /, se tiene que R'(t) = -F'(t); pero F'(t) = /(/). 
Como resultado se tiene que la frecuencia de falla puede expresarse como: 

h(t) = -R\t)/R(t). (5.75) 

Suponiendo que el sistema comenzó a funcionar en t = 0, R(0) = I . Integrando 
ambos miembros de (5.75) desde hasta /, se tiene: 



I h(x)dx = - í [R'(x)/R(x)]dx 

Ja Jo 



JO 

= -HR(t)] + ln[/?(0)] 

= -HRU)], 
donde x es una variable muda de integración. Dado que: 

-ln[R(t)] = f h(x)dx, 

Jo 

se tiene: 

R(t) = exp -I h(x)dx 

Mediante el empleo de (5.74), la función de densidad de probabilidad es: 



fit) = /i(/)exp - h(x)dx 



VI 



(5.76) 



Existen muchos fenómenos físicos de naturaleza aleatoria que muestran frecuen- 
cias de falla que tienen un parecido a "la curva de la tina de baño", tal y como se 
ilustra en la figura 5.9. En el intervalo de tiempo, de a /,, la frecuencia de falla es 
apreciable pero disminuye en valor debido al "síndrome de mortalidad infantil", 
mismo que sugiere que las primeras fallas pueden tener su origen en defectos de 
fabricación. Durante el intervalo de í, a t 2 , h(t) es casi constante, pero comienza a 
aumentar de valor después de t 2 por fallas debidas al desgaste de los componentes. 
Se puede imaginar una frecuencia de falla constante si los componentes se prueban 
inicialmente para detectar fallas por desgaste y se reemplazan antes de t 2 . 

Si la frecuencia de falla 1/0, es constante, la función de densidad de probabili- 
dad del tiempo de vida medio es la exponencial negativa. Esto es, si h(t) = 1/0. en- 
tonces de (5.76) se tiene: 



fU) = - exp 

V 






-exp(-f/0). 
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h(t) 




FIGURA 5.9 Función de frecuencia de falla típica 



Nótese que la proposición inversa también es cierta; si el tiempo de vida medio se en- 
cuentra distribuido de manera exponencial, la frecuencia de falla es constante. Dado 
que la función de confíabilidad a tiempo t para un tiempo de vida medio distribuido 
exponencialmente es: 



t/S), 



R(t) = exp( 
la frecuencia de falla está dada por: 

(l/0)exp( 



/>0, 



(5.77) 



hit) = 



t/S) 



exp( 
1/0, 



■t/S) 



/>0. 



Una frecuencia de falla constante implica que la probabilidad de falla en un in- 
tervalo de tiempo determinado, depende de la duración de éste y no del tiempo en 
que el sistema ha estado operando. Esta última es la propiedad de "no memoria". A 
pesar de que el lapso de vida media no se encuentra distribuido de manera exponen- 
cial a lo largo de todo el periodo de funcionamiento del componente, el tiempo de 
operación de un sistema que contiene a éstos puede modelarse de manera adecuada 
por una distribución exponencial si se añade una selección inicial y una política de 
mantenimiento adecuada para los componentes. 

Muchos investigadores proporcionan justificación empírica para la distribución 
exponencial en problemas de confíabilidad . El trabajo de Davis [3], quien demostró 
que el lapso de duración de ciertos componentes eléctricos puede modelarse de ma- 
nera adecuada por una distribución exponencial, es típico en este sentido. Como 
ejemplo de este trabajo, la tabla 5. 14 contiene una comparación entre las frecuencias 
observada y teórica para el tiempo de duración del bulbo V805. El tiempo oe vida 
promedio para este bulbo, con base en los datos que se observaron fue de 179 horas. 
Al sustituir este valor de en (5.72), se pueden obtener las probabilidades teóricas 
para la distribución exponencial. 
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TABLA 5.14 Frecuencias observada y esperada para el bulbo V805 



Tiempo de 










duración 


Frecuencia 


Frecuencia 


Probabilidad 


Frecuencia 


(horas) 


observada 


relativa 


del intervalo 


esperada 


0-80 


317 


0.3511 


0.3604 


325.4 


80-160 


230 


0.2547 


0.2305 


208.2 


160-240 


118 


0.1307 


0.1474 


133.1 


240-320 


93 


0.1030 


0.0943 


85.2 


320-400 


49 


0.0543 


0.0603 


54.5 


400-480 


33 


0.0365 


0.0386 


34.8 


480-560 


17 


0.0188 


0.0247 


22.3 


560-700 


26 


0.0288 


0.0238 


21.5 


700 o más 


20 . 


0.0221 


0.0200 


18.1 


Totales 


903 


1.0000 


1.0000 


903.1 



El prgumento para emplear la distribución exponencial como modelo para el 
tiempo aleatorio en problemas de lineas de espera es similar al que se emplea en los 
lapsos de duración de un componente. Esto es, si un taller de reparación opera por 
un tiempo suficientemente largo para obtener una condición cercana al equilibrio, la 
probabilidad de hacer una reparación o que ésta se complete en un tiempo determi- 
nado, dependerá de este último, y no del que haya transcurrido en llevar a cabo la úl- 
tima reparación o el completarla. 

A pesar de que la distribución exponencial negativa se emplea muchas veces para 
modelar la duración aleatoria de cierto componente, no es la distribución más apro- 
piada, en el tiempo en que ocurrirá una falla, para todos los dispositivos. Existe 
una razón para creer que el lapso de tiempo que el componente tiene en operación 
afecta su duración. Los modelos más apropiados en estos casos son la distribución 
de Weibull o la de Erlang. Éstas exhiben frecuencias de falla crecientes, decrecientes 
o constantes dependiendo de cuándo los valores de los parámetros de forma son más 
grandes que, menores que, o iguales a uno, respectivamente. Por ejemplo, la función 
de confiabilidad para la distribución de Weibull está determinada por: 



y la frecuencia de falla es: 



R(t) = exp[-(//0y] 



h{t) = at a '/d a . 



(5.78) 



(5.79) 



Un ejemplo de sistema con una frecuencia de falla decreciente es aquél que mejora 
su funcionamiento con el paso del tiempo. Un ejemplo de este fenómeno es la dura- 
ción de una empresa. Entre más tiempo tenga ésta operando con menor frecuencia 
se observará una falla en un intervalo dado de tiempo. 



5.8 La distribución de una función de variable aleatoria 

Uno de los ingredientes clave en inferencia estadística es la distribución de probabili- 
dad de la "estadística" con base en la cual se formula la inferencia. Puesto que las 
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estadísticas son funciones de variables aleatorias, en muchas ocasiones es posible ob- 
tener sus distribuciones si se conocen las variables aleatorias sobre las que éstas se 
basan. 

En esta sección se examinará una técnica para determinar la distribución de 
una función de variable aleatoria, considerando el caso de una variable aleatoria 
continua. Sea X una variable aleatoria con función de densidad de probabilidad 
/*(■*)> y sea Y = g(X) una función definida de X. Supóngase que es posible resol- 
ver y = g(x) para x obteniendo de esta forma la función inversa x = g (y). Si 
gfx) y £~'(y) son funciones univaluadas de x y y, respectivamente, se dice que la 
transformación es uno a uno. Esto es, a cada punto en el espacio muestral de X le 
corresponde un punto único del espacio muestral de y y viceversa. Si se supone la 
existencia de una transformación uno a uno y ademas que y = g(x) es una función 
creciente y diferenciable de x, se puede determinar la función de densidad de proba- 
bilidad de X en la siguiente forma: 

Debido a la existencia de una transformación uno a uno: 

F r (y) = P(Y^y) 

= P[g(X) < y] 

= P[X^g-'(y)l 
Entonces: 

Fy(y) = F x [g-\y)]. (5.80) 

Al establecer la diferencia (5.80) con respecto a y y mediante el empleo de la regla 
de la cadena, se tiene: 

,, , dF. x \g-\yy\ dx 
My) = Jx Jy 

= fxVg-\y)]j v (5.8D 

Si gfx) es una función decreciente de x, el resultado que se obtiene es el mismo con 
excepción de que la derivada de una función decreciente es negativa. De esta manera 
se puede formular la siguiente proposición: 

Teorema 5.2 Sea X una variable aleatoria continua con función de densidad de 
probabilidad f x (x> y defínase Y = g(X). Si y = gfx) y jc = g~\y) son funciones 
univaluadas, continuas y diferenciables y si y = g(x) es una función creciente o decre- 
ciente de x, la función de densidad de probabilidad de Y está determinada por: 



fy()') =Mg~ '()')] 



(5.82) 



en donde la cantidad J = \dx/dy\ recibe el nombre de Jacobiano de la transfor- 
mación. 
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El teorema 5.2 se obtiene a partir de una técnica de cambio de variable en una in- 
tegral definida, que ya se empleó en varias ocasiones. 

Sea X una variable aleatoria continua con una función de densidad de probabili- 
dad f(x; fi, d, a), donde fi, 6, y a son los parámetros de localización, escala y 
forma respectivamente. El efecto del parámetro de forma a puede hacerse más claro si 
se considera la distribución de la variable aleatoria estandarizada Y = (X - (i)/0, 
la cual no contiene a/uyí. Mediante el empleo de (5.82), la función de densidad de 
probabilidad de Y es: 



fr(y) = efAOy + /*), 



(5.83) 



ya que la relación inversa es x = $y + ¡x y el Jacobiano está dado por dx/dy = 
6. En particular, sea X una variable aleatoria con distribución gama y cuya función 
de densidad se establece por (5.45). La función de densidad de Y = X/Q es: 



fc(yia) = í ^r/"- , exp(-;y), y > 0. 
I (a) 



(5.84) 



De manera similar, si A' es una variable aleatoria de Weíbull con función de densi- 
dad de probabilidad dada por (5.61), la densidad de Y = X/d es: 



■f w (y; a) = ay a 'exp( -y"), y>0. 



(5.85) 



Si no existe un parámetro de forma y si fi y d son la media y la desviación están- 
dar de X, respectivamente, entonces (5.83) dará origen a una función de densidad 
libre de parámetros con media cero y desviación estándar uno. Un ejemplo de lo an- 
terior es la función de densidad de probabilidad normal estandarizada. 

Ejemplo 5. 12. Si la variable aleatoria X se encuentra distribuida de manera unifor- 
me en el intervalo (0,ir), debe obtenerse la función de densidad de probabilidad de 
la función Y = c sen (X), para cualquier constante positiva c. 

Nótese que la relación y = c sen fx) es una función estrictamente creciente de x 
en el intervalo (0, ir/2) y estrictamente decreciente en el intervalo {n/2, ir). Cuan- 
do la relación funcional es creciente en alguna parte del dominio de la variable alea- 
toria original y decreciente para el resto, la función de densidad de probabilidad de 
interés puede obtenerse al tratar cada parte de manera separada y sumar los resulta- 
dos. De acuerdo con lo anterior, los intervalos (0, ir/2) y (-jt/2, ir) deben manejar- 
se en forma separada. 

La relación inversa es: 



x = sen ( v/c), 
y el Jacobiano de la transformación es: 



1 



(r - y) 



-1/2 



■1/2 
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Dado que la densidad de X es: 

f(x) = I/ir < x < ir, 
para el intervalo (0, rr/2), 

My) = -(c 2 -'y 2 r i/2 Os y <c, 



7T 



y para el intervalo (w/2, tt), 



r-2 _ „2\-"/2 



/ 2 (y) = -(c -r)" 

La función de densidad de probabilidad de Y es: 

fr(y) = My) + fz(y) 

^ 'r-2 _ „2l- >/ 2 



0<y :£c. 



= -(c 2 - yT"\ Osy<c. 

77 



(5.86) 



I 



Ejemplo 5. 13 Sea A" una variable aleatoria distribuida normalmente con media i¿ y 
desviación estándar <r. Obtener la función de densidad de probabilidad de Y = 
exp(X), 

La relación y = exp(x) es una función creciente y diferenciable de x. La relación 
inversa es x = ln(y), y el Jacobiano es ctc/rfy = 1/y. Por lo tanto, la densidad de Y 
es: 



f r (y;ix,(r) = 



I 



V2tt 



exp 



cry 



ln(y) - /a 



y >0. 



(5.87) 



La expresión dada en (5.87) es la función de densidad de probabilidad de lo que se 
conoce como el modelo log-normal. A pesar de que los parámetros de la densidad 
log-normal son las cantidades /j. y a, éstas no representan parámetros de localiza- 
ción o escala. Más bien son la media y la desviación estándar de la correspondiente 
variable aleatoria normal. Mientras que la variable aleatoria normal se considera, en 
muchas ocasiones, como la representante del efecto aditivo de muchos errores 
físicos pequeños, la variable aleatoria log-normal representa el efecto multiplicativo 
de éstos. La distribución log-normal se emplea en una gran variedad de aplicaciones 
que incluyen el problema de evaluar los efectos de la fatiga sobre materiales. Véase 
[1] para una presentación detallada de esta distribución. 

Existe otro método para determinar la distribución de una función de variable 
aleatoria que emplea la función generadora de momentos. Recuérdese que esta fun- 
ción, si existe, determina de manera unívoca una distribución de probabilidad. De 
esta manera, si se encuentra que una variable aleatoria tiene la misma función gene- 
radora de momentos que la de una distribución conocida, entonces la función de va- 
riable aleatoria tiene la misma distribución. 
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Ejemplo 5.14 Sea Z una variable aleatoria distribuida normalmente con media 
cero y desviación estándar uno. Demostrar que la distribución de: 

Y = Z 2 

es una distribución chi-cuadrado con un grado de libertad. 
Por definición, la función que genera momentos de Z 2 es: 

#M0 = £[exp(/Z 2 )] = j jxp(tz 2 )f(z)dz 

= (2tt)- ,/2 J ^ exp(íz 2 )exp(- z 2 /2)í/z 

= (2tt)- m J_ x exp[ - (z 2 /2)( 1 - 2t)]dz 



= (2tt)- ,/2 í exp 



2(1-2/)" 



<fe. 



Nótese que, excepto por una constante, el integrando de la última integral es igual al 
de la función de densidad de probabilidad de una variable aleatoria normal con me- 
dia cero y varianza (1 - 2/) " ' . Para hacer el integrando igual a una distribución nor- 
mal con media cero y varianza (1 - 2t)~ ', se multiplica tanto el numerador como 
el denominador por la desviación estándar (1 - 2t)~ l/2 , que no es otra cosa más 
que multiplicar la expresión por uno. De esta forma, 



ntzÁO = 



1 



(1 - 2í)' /2 

= (i - 2*r ,/2 



J — V2ir 



V2tt(1 - 2í) 



1/2 



exp 



2(1 - 20" 



dz 



dado que el integrando es una función de densidad de probabilidad normal y por defi- 
nición, la integral desde — oo a » , es uno. La función generadora de momentos de 
Y = Z 2 es idéntica a la de la distribución chi-cuadrado con v = 1 grados de liber- 
tad; (véase (5.60)). Por lo tanto, el cuadrado de la variable aleatoria normal estándar 
tiene una distribución chi-cuadrado con un grado de libertad. 

5.9 Conceptos básicos en la generación de números 
aleatorios por computadora 

Desde el advenimiento de los sistemas de cómputo de gran escala, los experimentos 
de simulación se han convertido en técnicas muy útiles para el análisis de sistemas 
complejos que, muchas veces, se constituyen por muchos componentes interdepen- 
dientes. En la simulación de estos sistemas surge la necesidad de simular fenómenos 
aleatorios que son característicos de un sistema en especial. Por ejemplo, si un banco 
desea examinar su sistema de servicios al cliente, debe simular el flujo de clientes al 



1 
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banco, así como también el tiempo necesario para llevar a efecto cada operación 
bancaria y estos sucesos constituyen eventos aleatorios. 

Para atacar este tipo de problemas se supone, en general, una distribución de 
probabilidad apropiada para cada fenómeno y se genera una secuencia de valores 
para la correspondiente variable aleatoria por computadora. Puesto que estas se- 
cuencias se generan mediante el empleo de algoritmos numéricos que pueden re- 
petirse exactamente, estas secuencias de números no constituyen, en un sentido 
estricto, números aleatorios. Sin embargo, estas secuencias exhiben suficientes pro- 
piedades aleatorias para emplearse con éxito en muchas aplicaciones. 

El propósito de esta sección no es estudiar las propiedades de los números aleato- 
rios generados por computadora ni determinar la forma más eficiente de hacerlo. 
Más bien el propósito es familiarizar al lector con las posibles formas de generar nú- 
meros aleatorios a partir de alguna de las distribuciones de probabilidad, discretas y 
continuas, que se han estudiado. 

La distribución uniforme sobre el intervalo (0, 1) juega un papel muy importante 
en la generación de números aleatorios por computadora. Para finalizar se establece 
y demuestra el siguiente teorema: 

Teorema 5.3 Para cualquier variable aleatoria continua X, la función de distribu- 
ción acumulativa F(x; 0) con parámetro 6 se puede representar por una variable 
aleatoria U, la cual se encuentra uniformemente distribuida sobre el intervalo unitario. 

Demostración: Dado que por definición la función de distribución acumulativa de 
X está dada por: 

F(x; 6) = \ _J(t, 8)dt, 

a cada valor de x le corresponde un valor de F(x; 6) que necesariamente se en- 
cuentra en el intervalo (0, 1). Además, F(X; 0) también es una variable aleatoria en 
virtud de la aleatoriedad de X. Para cada valor u de la variable aleatoria U, la fun- 
ción u = F(x; 6) define una correspondencia uno a uno entre U y X siendo la rela- 
ción inversa x = F "'(«). Al tenerla = dF(x; 6) = f(x; 0)dx, el Jacobiano de la 
transformación es: 



J = 



du 



= lñx;d)V l = lf(F-\u);d)]-\ 



La función de densidad de probabilidad de la variable aleatoria U, mediante el 
empleo de (5.82), es: 

gU<) =ñF-\u);d)[ñF\uy,e)V x 
= 1, . 0<w< 1. 

La esencia del teorema 5.3 recae en el hecho de que, para muchos casos, es posible 
determinar de manera directa el valor de x que corresponde al valor de u de las va- 
riables aleatoria X y U, respectivamente, de manera tal que F(x; 6) = u. Por esta ra- 
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zón todos los sistemas de cómputo tienen en su estructura la capacidad de generar 
valores aleatorios a partir de una distribución uniforme sobre el intervalo unitario 
(0, 1). De hecho, muchos paquetes estadísticos para computadora, como SAS, SPSS 
y IMSL, proporcionan al usuario la oportunidad de generar números aleatorios a 
partir de una distribución dada. Se ilustrará el uso del teorema 5.3 en la generación 
de números aleatorios para algunas distribuciones de probabilidad especificas. 



5.9.1 Distribución uniforme sobre el intervalo (a, b) 

La función de densidad de probabilidad es: 

/(*; a, b) = l/(b -a), a^x^b. 

Para generar un número aleatorio x, a < x < b, primero se genera un valor alea- 
torio u a partir de (0, 1), se iguala a la función de distribución acumulativa, se in- 
tegra y se resuelve para el límite superior x. De esta forma: 






(b - a)'' dt = u 



x — a 



x = u(b - a) + a, a<x<b (5.88) 



5.9.2 La distribución de Weibull 

La función de densidad de probabilidad es: 



f(x;a,8) = —x"- , exp[-(x/er], x>0. 
a 

Para generar números aleatorios de Weibull x > 0, se resuelve la ecuación 

j- a ¡ n t a ^x P [-(t/er]dt = u 



±)l-L ]t ^-u/m 



= u 

o 



x = 6 



1 - exp[-(A-/0) Q ] = m, 
1 



ln 



I - u 



Mol 

(5.89) 
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Dado que para a = 1 , la distribución de Weibull se reduce a la exponencial, pueden 
generarse números aleatorios para una distribución exponencial mediante (5.89) 
con a = 1 . 

5.9.3 La distribución de Erlang 

La función de densidad de probabilidad es: 

f(x; a, d) = — — x- 'exp( -x/0), x>0, § 

r(a)r i 

í 

en donde a es un entero positivo. Recuérdese que la variable aleatoria de Erlang es % 
la suma de a variables aleatorias independientes distribuidas exponencialmente. Por 
lo tanto, un número aleatorio de Erlang es la suma de a valores aleatorios exponen- 
ciales, en donde cada valor se genera mediante (5.89). 

5.9.4 La distribución normal 

La función de distribución acumulativa normal es: 

v^/-^ xp R(^). 



dt = u 



no puede resolverse, en forma cerrada, para x. De manera alternativa, puede de- 
mostrarse que si (/, y U 2 son dos variables aleatorias independientes con distribu- 
ción uniforme sobre el intervalo unitario, entonces 

Z, = (-2 1ní/ 1 ) ,/2 sen(27r(/ 2 ) y (5 90) 

Z 2 = (-2 1ní/,) 1/2 cos(2n-(/ 2 ) 

son dos variables aleatorias normales estandarizadas e independientes. 

5.9.5 La distribución binomial 

Para generar números aleatorios a partir de una distribución binomial con función 
de probabilidad se considerará lo siguiente: la variable aleatoria binomial es vista 
como la suma de n resultados de un proceso de Bernoulli descrito por: 

p(x; n, p) = ^— - p\\ - p) n '\ x = 0, 1, 2, ..., n 

(n - x)\x\ 

{ 1 con probabilidad p 

(.0 con probabilidad (1 - p). 

Se puede obtener un número aleatorio binomial mediante la suma de n de los valo- 
res de la variable aleatoria Y, en donde cada valor se determina mediante: 

f 1 si < w < o 
y = (5.91) 

lO si p < u < I, 
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donde u es un número aleatorio uniforme sobre el intervalo unitario. Esto es, se ge- 
neran n números aleatorios a partir del intervalo unitario, se convierten a unos y ce- 
ros de acuerdo con (5.91) y la suma de los unos en esta secuencia es el número aleato- 
rio binomial. 



5.9.6 .. La distribución de Poisson 

Recuérdese que la probabilidad de tener x ocurrencias en un intervalo de tiempo t 
está definida por: 



p(x; t) = 



(w) J exp( - vt) 



x = 0, 1,2,..., 






donde v es la frecuencia constante de ocurrencia, y X = vi es el número promedio 
de éstas. Como la ocurrencia en el tiempo de dos eventos independientes de Poisson 
se encuentra distribuida exponencialmente, se puede generar un número aleatorio 
de Poisson x mediante la generación sucesiva de números aleatorios exponenciales 
por (5.89) para a = 1. El proceso se continúa hasta que la suma de los valores x + 1 
sea mayor que el intervalo de tiempo t. Por lo tanto, el número aleatorio de Poisson 
es x. 



1 
">'¡ít 

T 
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Ejercicios 

5.1. En la misma gráfica, dibujar las distribuciones normales N(0, 5) y N(0, 4) 

5.2. Sea X ~ N (50, 10). Determinar las siguientes probabilidades: 
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a) P(X<AQ) 

b) P(X<(>5) 

c) P(X>55) 



d) 
e) 
J) 



P(X > 35) 
/>(40 < X < 45) 
/>(38 < X < 62) 



5.3. Sea X ~ N(200, 20). Determinar las siguientes probabilidades: 



a) P(\S5<X<2\0) 

b) /'(215<A'<250) 



c) P(X > 240) 

d) P(X> 178) 



5.4. Sea X ~ N( - 25, 10). Encontrar los valores de x que corresponden a las siguientes pro- 
babilidades: 



a) P(X<x) = 0.1251 

b) P(X < x) = 0.9382 



c) P(X > x) = 0.3859 

d) PiX > x) = 0.8340 



5.5. Sea X ~ N(10, 5). Encontrar los valores de x que corresponden a las siguientes proba- 
bilidades: 



a) P(X < x) = 0.05 

b) P(X < x) = 0.95 

c) P(X < x) = 0.99 



d) P(X<x) = 0.01 

e) P(X < x) = 0.025 

f) PiX < x) = 0.975 



5.6. Sea A" ~ N(i¿,cr). Determinar la media y la varianza de X si los cuanti les son x l)4 = 
50 y .r B .„ = 100 

5.7. Una universidad espera recibir, para el siguiente año escolar, 16 000 solicitudes de 
ingreso al primer año de licenciatura. Se supone que las calificaciones obtenidas por los 
aspirantes en la prueba SAT se pueden calcular, de manera adecuada, por una distribu- 
ción normal con media 950 y desviación estándar 100. Si la universidad decide admitir 
al 25% de todos los aspirantes que obtengan las calificaciones más altas en la prueba 
SAT, ¿cuál es la mínima calificación que es necesario obtener en esta prueba, para ser 
admitido por la universidad? 

5.8. Una fábrica produce pistones cuyos diámetros se encuentran adecuadamente clasifica- 
dos por una distribución normal con un diámetro promedio de 5 cm y una desviación es- 
tándar igual a 0.001 cm. Para que un pistón sirva, su diámetro debe encontrarse entre 
4.998 y 5.002 cm. Si el diámetro del pistón es menor que 4.998 se desecha; si es mayor 
que 5.002 el pistón puede reprocesarse. ¿Qué porcentaje de pistones servirá? ¿Qué por- 
centaje será desechado? ¿Qué porcentaje será reprocesado? 

5.9. La demanda mensual de cierto producto A tiene una distribución normal con una media 
de 200 unidades y desviación estándar igual a 40 unidades. La demanda de otro produc- 
to B también tiene una distribución normal con media de 500 unidades y desviación es- 
tándar igual a 80 unidades. Un comerciante que vende estos productos tiene en su alma- 
cén 280 unidades de A y 650 de B al comienzo de un mes, ¿cuál es la probabilidad de 
que, en el mes, se vendan todas las unidades de ambos productos? Puede suponerse in- 
dependencia entre ambos eventos. 

5.10. El peso de cereal que contiene una caja se aproxima a una distribución normal con una 
media de 600 gramos. El proceso de llenado de las cajas está diseñado para que de entre 
100 cajas, el peso de una se encuentre fuera del intervalo 590-610 gramos. ¿Cuál es el va- 
lor máximo de la desviación estándar para alcanzar este requerimiento? 

5.11. En una tienda de descuento la demanda diaria de acumuladores para automóvil se cal- 
cula mediante una distribución normal con una media de 50 acumuladores que tienen 



Ejercicios 177 

una desviación estándar de 10. En dos días consecutivos se venden 80 y 75 acumulado- 
res respectivamente. Si estos días son típicos, ¿qué tan probable es, bajo las suposi- 
ciones dadas, vender 80 o más y 75 o más acumuladores? 

5.12. Un fabricante de aviones desea obtener remaches para montar los propulsores de sus 
aviones. El esfuerzo a la tensión mínimo necesario de cada remache es de 25 000 Ib. Se 
pide a tres fabricantes de remaches (A, ByQ que proporcionen toda la información 
pertinente con respecto a los remaches que producen. Los tres fabricantes aseguran que 
la resistencia a la tensión de sus remaches se encuentra distribuida, de manera aproxima- 
da, normalmente con un valor medio de 28 000, 30 000 y 29 000 Ib, respectivamente. 

a) ¿Tiene el fabricante la suficiente información para hacer una selección? 
¿Por qué? 

b) Supóngase que las desviaciones estándar para A, B y C son 1 000, 1800 y 1200, res- 
pectivamente. ¿Cuál es la probabilidad de que un remache producido ya sea por A, B 
o C no reúna los requisitos mínimos? 

c) Si usted fuera el fabricante de av : one*\ ¿podría elegir entre A, B y C, con base en su 
respuesta al inciso bfl ¿Por qué? 

5.13. Un fabricante de escapes para automóviles desea garantizar su producto durante un 
periodo igual al de la duración del vehículo. El fabricante supone que el tiempo de dura- 
ción de su producto es una variable aleatoria con una distribución normal, con una vida 
promedio de tres años y una desviación estándar de seis meses. Si el costo de reemplazo 
por unidad es de $10, ¿cuál puede ser el costo total de reemplazo para los primeros dos 
años, si se instalan 1 000 000 unidades? 

5.14. El tiempo necesario para armar cierta unidad es una variable aleatoria normalmente 
distribuida con una media de 30 minutos y desviación estándar igual a dos minutos. De- 
terminar el tiempo de armado de manera tal que la probabilidad de exceder éste sea de 
0.02. 

5.15. Un periódico llevó a cabo una encuesta entre 400 personas seleccionadas aleatoriamen- 
te, en un estado, sobre el control de armas. De las 400 personas, 220 se pronunciaron en 
favor de un estricto control. 

a) ¿Qué tan probable resulta el hecho de tener 220 o más personas a favor del control de 
armas, si la población en este estado se encuentra dividida en opinión de igual manera? 

b) Supóngase que se encuesta a 2000 personas teniendo la misma proporción de éstas a 
favor del control de armas, que la del inciso anterior. ¿Cómo cambiaría su respuesta 
al inciso a)l 

c) Si el número de personas encuestadas es de 10 000, ¿cuál es la probabilidad de tener 
una ocurrencia diferente a la del inciso b)l 

5.16. Una prueba de opción múltiple contiene 25 preguntas y cada una de éstas cinco op- 
ciones. ¿Cuál es la probabilidad de que, al contestar de manera aleatoria cada pregunta, 
más de la mitad de las respuestas sea incorrecta? 

5.17. Una organización llevó a cabo una encuesta entre 1 600 personas, seleccionadas de ma- 
nera aleatoria de toda la población del país, para conocer su opinión con respecto a la 
seguridad en las plantas de energía nuclear. De este grupo, el 60% opinó que las plantas 
de energía nuclear tienen muy poca seguridad. Con base en estos resultados ¿existe algu- 
na razón para dudar que la población en general tiene una opinión neutral con respecto 
a este asunto? 
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5.18. Sea X una variable aleatoria distribuida binomialmente. 

a) Para n = 15, p = 0.25 y n = 15 y p = 0.5, calcular las siguientes probabilidades: 
P( X = 8), P(X < 3), P{X < 7), P(X > 9), y P(X > 12). 

£»> Aproxímense los valores de las probabilidades anteriores mediante el empleo de la 
distribución normal. 

c) Repetir los incisos a) y b) para n = 25 y comparar los resultados. 

5.19. Sea X una variable aleatoria con distribución uniforme sobre el intervalo (a, b). 

a) ¿Cuál es la probabilidad de que X tome un valor que se encuentre a una desviación 
estándar de la media? 

b) ¿Puede tomar A" un valor que se encuentre a dos desviaciones estándar de la media? 

5.20. Sea X una variable aleatoria con distribución uniforme sobre el intervalo (a, b). ¿Cuál 
es la máxima distancia, en términos de la desviación estándar, a la que puede encontrar- 
se un valor X a partir de la media? 

5.21. Sea X una variable aleatoria con distribución uniforme sobre el intervalo (a, b). Si E(X) 
= 10 y VarfX) = l2, encontrar los valores de a y de b. 

5.22. Supóngase que la concentración de cierto contaminante se encuentra distribuida de ma- 
nera uniforme en el intervalo de 4 a 20 ppm (partes por millón). Si se considera como tó- 
xica una concentración de 15 ppm o más, ¿cuál es la probabilidad de que al tomarse una 
muestra la concentración de ésta sea tóxica? 

5.23. Sea X una variable aleatoria con distribución beta y parámetros a = 3 y /3 = 1. 

a) Graficar la función de densidad de probabilidad. 

b) Obtener la media, la varianza, la desviación media, el coeficiente de asimetría y la 
curtosis relativa. 

c) ¿Cuál es la probabilidad de que A" tome un valor que se encuentre dentro de una des- 
viación estándar a partir de la media? ¿A dos desviaciones estándar? 

d) Determinar los cuantiles de esta distribución. 

5.24. Si los parámetros de la distribución beta son enteros, puede demostrarse que la función 
de distribución acumulativa beta se encuentra relacionada con la distribución binomial 
en la siguiente forma: 

p(x< P) = /,(«./» = ij-JjL^M - pt->, 

en donde « = a + /3— 1 y < /? < 1 . Si A' es una variable aleatoria con una 
distribución beta con parámetros a = 2 y /3 = 3, emplear la relación anterior para 
obtener P(X < 0.1), P(X < 0.25), y P(X < 0.5). 

5.25. Tomando como referencia el ejercicio anterior, determinar la probabilidad de que X 
tome un valor que se encuentre dentro de un intervalo igual a una desviación estándar 
de la media y, posteriormente, de un intervalo igual a dos desviaciones estándar. 

5.26. La proporción de unidades defectuosas en un proceso de fabricación es una variable 
aleatoria que se encuentra aproximada por una distribución beta con a = 1 y = 20. 

a) ¿Cuál es el valor de la media y de la desviación estándar? 

b) ¿Cuál es la probabilidad de que la proporción de artículos defectuosos sea mayor que 
un 10%? ¿Mayor que un 15%? 



I 
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5.27. Aproxime su respuesta al inciso b) del ejercicio anterior mediante el empleo de la aproxi- 
mación normal dada por la expresión (5.44). 

5.28. La competencia en el mercado de una compañía de computadoras varia de manera alea- 
toria de acuerdo con una distribución beta con o = 10 y /3 = 6. 

a) Granear lá función de densidad de probabilidad. 

b) Encontrar la media y la desviación estándar. 

c) Obtener la probabilidad de que la competencia en el mercado sea menor que la media. 

d) Encontrar la probabilidad de que la competencia en el mercado se encuentre dentro 
de una desviación estándar de la media y, posteriormente, de un intervalo igual a dos 
desviaciones estándar de la media. 

5.29. Sea X una variable aleatoria con distribución gama con a = 2 y = 50. 

a) ¿Cuál es la probabilidad de que X tome un valor menor al valor de la media? 

b) ¿Cuál es la probabilidad de que X tome un valor mayor de dos desviaciones estándar 
con respecto a la media? 

c) ¿Cuál es la probabilidad de que X tome un valor menor al de su moda? 

5.30. Sea X una variable aleatoria con dlitribución gama y a = 2y0 = 100. 

a) Graficar la función de densidad de probabilidad. 

b) Encontrar la probabilidad de que, primero, X tome un valor dentro de un intervalo 
igual a una desviación estándar de la media y, posteriormente, de un intervalo igual a 
dos desviaciones estándar de la media. 

c) ¿Cómo cambiarían sus respuestas a la parte b) si = 200? 

5.31. La edad a la que un hombre contrae matrimonio por primera vez es una variable aleato- 
ria con distribución gama. Si la edad promedio es de 30 años y lo más común es que el 
hombre se case a los 22 años, encontrar los valores de los parámetros a y 0, para esta 
distribución. 

5.32. La información que a continuación se presenta es una tabulación parcial de la función 
gama incompleta tal como se encuentra definida por (5.55) para a = 16. 



2.5 



3.0 



3.5 



4.0 



4.5 



/(«, 15) I 0.0082 0.0487 0.1556 0.3306 0.5333 0.7133 



5.0 



5.5 



6.0 



6.5 



7.0 



/(«, 15) 1 0.8435 0.9231 0.9656 0.9858 0.9946 

Para = 10, comparar estas probabilidades con las que se proporcionaron al emplear 
una aproximación normal. 

5.33. Mediante el empleo de la función generadora de momentos de la distribución gama, en- 
contrar expresiones para la media y la varianza. 

5.34. La duración de cierto componente es una variable aleatoria con distribución gama y pa- 
rámetro a = 2. 

a) Obtener la función de confiabilidad. 

b) Para = 20, obtener la frecuencia de falla y granearla como una función de /. 

c) Si = 20, ¿cuál es la confiabilidad del componente en / = 80? 

5.35. Para armar un articulo se necesitan cuatro etapas. Si el tiempo total necesario para ar- 
mar un artículo, en horas, es una variable aleatoria con distribución gama y parámetro 
de escala 0=2, ¿cuál es la probabilidad de armar un artículo en menos de 15 horas? 
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5.36. Sea X una variable aleatoria con distribución de Weibull y parámetros a = 2y0 = 20. 

a) Graficar la función de densidad de probabilidad. 

b) Obtener la probabilidad de que X tome un valor mayor que la media. 

c) Obtener la probabilidad de que X tome un valor que se encuentre en un intervalo 
igual a una desviación estándar, y después en un intervalo igual a dos desviaciones es- 
tándar de la media. 

5.37. El tiempo de duración de un sistema se encuentra aproximado por una distribución de 
Weibull con a = 2 y 6 = 50. 

a) Obtener la media y los deciles de esta distribución. 

b) Obtener la confiabilidad de este sistema en / = 75. 

5.38. Un sistema está formado por dos componentes independientes A y B. El sistema perma- 
necerá operando mientras uno o ambos componentes funcionen. Si el tiempo de vida de 
la componente A es una variable aleatoria de Weibull con a = 1/2 y 6 = 10, y si el 
tiempo de vida de B es también una variable de Weibull con a = 2 y 8 — 12. ¿cuál es la 
probabilidad de que el sistema trabaje más de 20 horas? 

5.39. Sea X una variable aleatoria con distribución exponencial. 

a) ¿Cuál es la probabilidad de que X tome un valor mayor que la media? 

b) Cuáles son las probabilidades de que X tome un valor que se encuentre en un interva- 
lo igual a una desviación estándar, primero, y en un intervalo igual a dos des- 
viaciones estándar de la media? 

5.40. Si la frecuencia con que falla un componente es constante y la confiabilidad de éste tiene 
un valor en / = 55 de 0.4, 

a) Obtener la función de densidad de probabilidad. 

b) Obtener la confiabilidad del componente para / = 100. 

5.41. Un dispositivo tiene una frecuencia de falla constante h(t) = 10~ 2 por hora. 

a) ¿Cuál es la confiabilidad del dispositivo para / = 200 horas? 

b) Si 500 de estos dispositivos fallan de manera independiente, ¿cuál es el número espe- 
rado de fallas entre éstos, después de 200 horas? 

5.42. El compresor de una unidad de aire acondicionado tiene una frecuencia de falla h(t) = 
2 x 10'Vpor hora. 

a) ¿Cuál es la función de confiabilidad del compresor? 

b) ¿Cuál es la confiabilidad del compresor para / = 15 000 horas? 

c) ¿Cuál es la vida media del compresor? 

d) ¿Cuál es la mediana de su duración? 

5.43. Sea X una variable aleatoria con distribución uniforme en el intervalo (0, 1). Demostrar 
que la variable aleatoria Y = -- In(AT) tiene una distribución chi-cuadrado con dos 
grados de libertad. 

5.44. Si X es una variable aleatoria con una distribución exponencial y parámetro 9, obtener 
la distribución de Y = (X - 9)19. 

5.45. Si A" es una variable aleatoria con una distribución de Weibull y parámetros a y 6, obte- 
ner la distribución de Y = X a . 

5.46. Seleccione una distribución de probabilidad discreta y una continua de la sección 5.9 y 
genere dos muestras aleatorias de 50 números aleatorios cada una. Para cada caso agru- 
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pe los datos y obtenga las frecuencias relativas. Calcule la media y la desviación estándar 
de cada una de las muestras y compare los resultados con los que se obtienen de manera 
teórica. 



APÉNDICE 

Demostración de que la expresión (5.1) es una función de densidad de probabilidad. 

El que la función sea no negativa se satisface, ya que f(x; ¡x, <r) > para -x < x 
<oc 5 — x < ¿t < x y o->0. Para demostrar que: 



í: 



f{x; ¡x, <r)dx = 1 , 



sea: 



/ = 



V277I 



i 



exp 



-(.v - ¿072o- 2 



dx 



el valor de la integral y apliqúese la transformación lineal y = (v — /x)/o- de ma- 
nera tal que x = ay + ¡x y dx = crdy. Esto da como resultado: 



/ = 



1 



V2< 



7T 



l 



exp(-y 7 /2)dy. 



Si puede demostrarse que f = 1 , puede deducirse que / = 1 puesto que f(x; /x, 
o-) tiene una valor positivo. De acuerdo con lo anterior: 



I 2 



-Uf exp(-y 2 /2)dy-^=¡ exp(-z 2 /2)dz 
/__/_„ exp -(y 2 + z 2 )/2 dydz, 



2tt 



en donde se ha escrito el producto de las dos integrales como una doble integral ya 
que las funciones de z son constantes con respecto a y y viceversa. Al cambiar de 
coordenadas rectangulares, representadas por x y y, a coordenadas polares r y 6, en 
donde y — r eos 6 y z = r sen 9. Esto es: 

y~ + z~ = r~ eos 6 + r'sen" 6 - r~, 

y el elemento de área dydz, en coordenadas rectangulares se reemplaza por rdrdQ en 
coordenadas polares. Dado que los límites ( - x, x) tanto para y como para z gene- 
ran el plano completo yz, el plano correspondiente a r y a 6 se genera mediante el 
empleo de los límites (0,27r) para 6 y (0,x) para r. De esta forma se tiene: 



/2 = T-[ í exp(-r 2 /2)rdrd0 

2tt jo jo 



182 Algunas distribuciones continuas de probabilidad 



2-ir Jo Jo 



exp( - r 2 /2)rdr 



\2ir 



2n 



t-exp(-r 2 /2)] 



y, por lo tanto, (5.1) es una función de densidad de probabilidad. 
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Demostración del teorema 5.1 

La demostración que aquí se presenta se basa en el hecho de que una función genera- 
dora de momentos define, de manera única, a una distribución. Se demostrará que 
la función generadora de momentos de atiende a una distribución normal conforme 
«-^°°. X es una variable aleatoria binomial: 

m x (t) = 1(1 -p) + pe']"- 
Entonces: 

m Y (t) = E(e' Y ) = E\ exp 
= exp 



t(X - np)/\Jnp(\ - p) 
npt/\/np(í - p) £4 exp 



tX/y/np(l - p) 



Ú exp 



donde E\ exp tX/\/np(\ - p) 



} es la 



función generadora de momentos de A" con 



argumento t/\/np(l - p). De esta forma se tiene: 



m 



Y (t) = exp -npt/\Jnp(\ - p) 



pero: 



y: 



(1 - p) + p exp 



t/Vnp(\ - p) 



exp 



-npt/y/np(l - p) 



exp 

m Y (t) = Ul - p)exp 
+ p exp 



~pt/y/np(l - p) 



-pt/y/np(\ - p) 
t pt 



yjnp(\ - p) y/np(l -p) 
(1 - p)exp 



]}' 



-pt/\Jnp(\ - p) 



+ p exp 



(1 -p)t/yJn¡A\ - P) 



Apéndice 183 



En la última expresión, al expander ambas funciones exponenciales en una serie 
de potencias, se tiene: 



(1 - p)exp 



■pt/V- 



np{\ - p) = 



(1 - ) o - P)P' + o - p)pv 

V"PO ~ P) 2 "P(1 - p) 
* = 3,4, .. 



+ términos en (- !)*(- 

n i (1 ~ p)pt j. *"* 

= (, - p) -V«P(i-,) + ^ 

*/2 



+ términos en (- 1)*I - 



k = 3,4, 



p exp 



(1 - p)t/y/np(l - p) 



t (1 - p)p/ | (1 - pfpt 1 
P \Jnp(\ - p) 2np{\ - p) 

,*/2 



+ términos en 



k = 3,4, ... 



M (1 - p)pt íl - p)f 



\Jnp{\ - p) 1n 

k = 3,4 



■ j\*/2 

+ términos en | - 



Al sustituir los resultados anteriores en m Y (t) y agrupar términos, 



m Y (t) = 



1 + - — t- términos en - 
2/2 \n 



k/2' 



k= 3,4,.... 



Dado que todos los términos que contienen a (l/n) k/2 , k = 3, 4, ..., tienen ex- 
ponentes mayores que uno, puede factorizarse el término 1 /n. De esta forma se tiene 
que: 



m r (t) = 1 + 



Por definición: 



r . . /I 

— + términos en - 

2 \n 



lím 1 + 



tf-2i/2 



A = 3,4,... 



<? ; 



entonces, conforme /z — <x, la última expresión para m Y (t) es idéntica a esta forma, 
con u representando a todo lo que se encuentra entre paréntesis de esta expresión. 
Pero conforme n — oo , todos los términos de u, excepto el primero, tienen un valor 
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de cero, dado que todos tienen potencias positivas de n en sus denominadores. De 
acuerdo con lo anterior. 

lím m Y U) = exp(r/2). 
que es la función generadora de momentos de la distribución normal estándar. 



CAPITULO SEIS 



Distribuciones conjuntas 
de probabilidad 



6.1 Introducción 

En los capítulos anteriores se consideraron conceptos probabilísticos tomando en 
cuenta una variable aleatoria a la vez. Sin embargo, muchas veces resulta de interés 
medir más de una característica de algún fenómeno aleatorio. Por ejemplo, en un 
proceso de producción en el que se tiene determinado número de artículos produci- 
dos en un tiempo definido, es muy común que el interés no sólo recaiga en el número 
de artículos que se encuentran listos para su venta inmediatamente después de su 
fabricación, sino también en el número que, después de reprocesarse, cae en la 
categoría anterior o en el número de artículos que serán desechados. Otro ejemplo 
puede ser que, al estudiar la contaminación del agua en general, se mida la con- 
centración de varios contaminantes presentes en ésta. De los ejemplos anteriores sur- 
ge la necesidad de estudiar modelos de probabilidad que contengan más de una va- 
riable aleatoria. Estos modelos reciben el nombre de modelos multivariados, mientras 
que los modelos con una sola variable reciben el nombre de univariados. En este capí- 
tulo se examinarán conceptos generales para distribuciones de probabilidad discretas y 
continuas con dos variables aleatorias. La extensión de estos conceptos a un mayor 
número de variables aleatorias resulta directa. 



6.2 Distribuciones de probabilidad bivariadas 

En esta sección se considerarán las definiciones pertinentes para distribuciones, tan- 
to discretas como continuas, de dos variables aleatorias. 

Definición 6.1 Sean Xy Y dos variables aleatorias discretas. La probabilidad de 
que X = x y Y = y está determinada por la función de probabilidad bivariada 

p(x, y) = P(X = x, Y = y). 
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en donde p(x, y) s* para toda x, y, de X, Y, y ls x 1 v p(x, y) = 1 . La suma se 
efectúa sobre todos los valores posibles de x y y. 

Con base en la definición 6.1, la función de distribución acumulativa bivariada 
es la probabilidad conjunta de que X ss x y Y «s y, dada por 

F(x, y) = P(X^x,Y^y) = £ £ p(x„ y,). (6. 1) 



Jr,^J" Vi^V 



La expresión anterior es una extensión del caso uni variado. La función de probabili- 
dad conjunta de dos variables aleatorias da origen a las probabilidades puntuales 
conjuntas, y la función de distribución bivariada es una función escalonada cre- 
ciente para cada probabilidad puntual distinta de cero, de manera tal que X = x y 
Y = y. 

Ejemplo 6. 1 Con base en la experiencia se sabe que la proporción de unidades úti- 
les producidas por un proceso de manufactura esp,, y las proporciones de unidades 
enviadas a reprocesar y desechadas, son p 2 yP y respectivamente. Si se supone que el 
número de unidades que se produce en un lapso dado es n y que además éstas consti- 
tuyen un conjunto de ensayos independientes de manera que P\ + p 2 + Pi = 1, 
desarrollar una expresión para la probabilidad de tener, de manera exacta, x { , x 2 y 
Xj unidades útiles, reprocesables y desechadas, respectivamente. 

Lo que se pide es una extensión de la distribución binomial univariada. A pesar 
de que existen tres resultados mutuamente excluyentes (útil, reprocesable y desecha- 
do), sólo es necesario definir dos variables aleatorias dado que, para cualquier nú- 
mero específico de cada una, la suma de las tres es n. Por consiguiente, sean A" y y las 
variables aleatorias que representan el número de unidades útiles y reprocesables, 
respectivamente, del total de unidades n. De esta manera, si X = x y Y = y, en- 
tonces el número de unidades que deben desecharse es n— x —y. Por la hipótesis de 
independencia, la probabilidad de tener una secuencia específica de resultados es 

p\pM - Px- P2)"- X ' y . 

Dado que existen n\/[x\y\(n — x - y)\] formas igualmente probables para que 
ocurra una secuencia de resultados específica, la probabilidad conjunta de tener, de 
manera exacta, x, y, y n - x-y unidades útiles, reprocesables y desechadas, respecti- 
vamente, es 

«! 

p(x,y;n, p,,p 2 ) = —r. p\p\(\ - p t - Pi)" * \ 

xly\(n-x-y)\ 

x, y = 0, 1,2, ...,«, (6.2) 

en donde p 3 = 1 - p, - p 2 . La expresión (6.2) es la función de probabilidad 
conjunta de lo que se conoce como la distribución trinomial. Los parámetros de esta 
distribución son n, p¡ y p 2 , dado que p } se determina de manera exacta si se conocen 
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p x y p 2 . La distribución trinomial se ha aplicado, de manera extensa, a situaciones en 
que existen tres resultados distintos, como en las encuestas sobre la preferencia del 
consumidor en relación a tres marcas comerciales o en encuestas de tipo político en 
que se pide la opinión con respecto a tres candidatos. 

Si existen k resultados distintos excluyen tes con probabilidades p u p 2 , ... p k , 
respectivamente.^entonces para n ensayos independientes, la distribución trinomial 
se generaliza para originar la distribución multinomial cuya función de probabilidad 
es: 



p(x,,x 2 , ...,x k -¡;n,.p l ,p 2 ,...,p t -,) = 



n\ 



x t \x 2 \ ...x k l 



P\ Pi ••• Pk 



x, r = 0, 1, 2, ..., n for i = 1, 2, ..., k, (6.3) 
en donde x k = n - *, - x 2 - •■• - **_, y p k = 1 - /?, - p 2 p k - t - 

Definición 6.2 Sean Xy y dos variables aleatorias continuas. Si existe una función 
/Ce, y) tal que la probabilidad conjunta: 



P(a < X < b, c < Y<d) 



-n 



f(x, y)dydx 



para cualquier valor de a, b, c, y den donde f(x, y) > 0, - °o < x, y < °°, y 
/-*/_« f(x, y)dydx = 1, entonces f(x, y) es la función de densidad de probabili- 
dad bivariada de Xy Y. 



La función de densidad de probabilidad de dos variables aleatorias continuas A' y 
yes una superficie en el espacio de tres dimensiones donde el volumen por debajo de 
ésta y por encima de un rectángulo específico a < X < b y c < Y < des igual a la 
probabilidad de que las variables aleatorias tomen valores iguales a los puntos que se 
encuentren dentro del rectángulo. 

La función de distribución bivariada acumulativa de A" y y es la probabilidad 
conjunta de que X *£ x y Y =s y, dada por: 



P(X *¿x,Y*£y) = F(x, y) = ¡_J[ñu, v)dvdu. 



(6.4) 



Por lo tanto, la función de densidad bivariada se encuentra diferenciando F(x, y) con 
respecto a x y y; es decir, 



f(x, y) = 



S 2 F(x, y) 
dxdy 



(6.5) 



Ejemplo 6.2 Sean A" y y dos variables aleatorias continuas con función de densi- 
dad de probabilidad conjunta dada por: 



f(x, y) 



(x + y) 0«jc,y« 1, 

para cualquier otro valor 
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Granear la función de densidad de probabilidad conjunta, determinar la función de 
distribución acumulativa conjunta y obtener la probabilidad conjunta de que X « 
1/2 y K« 3/4. 

La gráfica de la función de densidad conjunta se ilustra en la figura 6.1. Nótese 
que/(.¡t, y) es una función de densidad de probabilidad conjunta, dado que 

fj\x + y)dydx = \[(xy + ¿)| * = { (x + ^dx = 1. 
Entonces 



F(x, y) = (w + yj</üí/í/ = 

Jo Jo Jo 



"V + y )</// = -v>(.v + >)/2, « x, v =£ 1. 



De c^ta c orma se tiene 



Además 



^■^«H-^ 



affr, >■) 
dx 



xy + y 



fix.y) 




FIGURA 6.1 Gráfica de la función de densidad conjunta /(jc, y) = x + y 
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d 2 F(x,y) 

— — = X + y = f( x , y). 

dxdy 



6.3 Distribuciones marginales de probabilidad 

Es posible determinar varias distribuciones marginales para cualquier distribución 
de probabilidad que contenga más de dos variables aleatorias. Por ejemplo, siXy Y 
son variables aleatorias discretas, la suma de la función de probabilidad bivariada 
sobre todos los valores posibles de Y dará origen a la función de probabilidad univa- 
riada de X. Por otro lado, si Xy y son variables aleatorias continuas, la integración 
de la función de densidad de probabilidad bivariada sobre el intervalo completo de 
variación de Y generará la función de densidad de probabilidad univariada de X. De 
acuerdo con lo anterior, se formulan las siguientes definiciones: 

Definición 6.3 Sean X y Y dos variables aleatorias discretas con una función de 
probabilidad conjunta p(x, y). Las funciones marginales de probabilidad de A' y 
de Y están dadas por 



Px(x) = 2 P(x,y) 

y 

Priy) = 2 p(x,y), 



respectivamente. 



Definición 6.4 Sean Xy Y dos variables aleatorias continuas con una función de 
densidad de probabilidad conjunta /(je, y). Las funciones de densidad de probabili- 
dad de A' y de Y están dadas por 



f x (x) = I J(x,y)dy 



fy(y) = \_Ji 



v- y)dx, 



respectivamente. 



Para variables aleatorias continuas conjuntas, si se conoce la función de distribu- 
ción acumulativa F(x, y), las distribuciones acumulativas marginales de A" y Y se ob- 
tienen de la siguiente forma: 

P(X « x) = F x (x) = {_ \ JU, y)dydt. 
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y 



F x (x) 



= Í-J* 



(t)dt = F(jc,«). 



(6.6) 



De manera similar 



P(Y^y) = F r (y) = /'_/__/(*. Odxdt = \* J Y {t)dt = 'F(«,y). (6.7) 

Así puede determinarse la distribución acumulativa marginal de X dejando que 
7 tome un valor igual al límite superior de la función de distribución conjunta de X 
V Y. 

Ejemplo 6.3 Sean Xy y dos variables aleatorias continuas con una función de den- 
sidad de probabilidad conjunta: 



ñx, y) = 



3jc(1 — jcy) « x, y *s 1 , 



^0 para cualquier otro valor. 

Obtener las distribuciones de densidad marginal y acumulativa de A!" y Y. 
La función de densidad marginal de X es 

f x (x) = 3 | o x{\ - xy)dy = 3 Ley - ^y 
De manera similar para Y 

My) = l[x(l-xy)dx = 3^- X -^) 
La distribución acumulativa conjunta de Xy Yes 

F(x,y) = 3 J I i/(l - ttv)dvdu = 3 J luy - - 



3,11--. 



= (3 - 2y)/2. 



y 



du 

= x 2 y(3 - xy)/2, OííjsI. 
Por lo tanto, las distribuciones acumulativas marginales de X y Y están dadas por 
F X ( X ) = F(.v, 1) = .v : (3 - .v)/2, *£ x =s 1, 

y 

F Y (y) = F(l, v) = v(3 - y)/2, « y « 1, 
respectivamente. 
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y 



FAX) 



- Lj* 



(t)dt = F{x,*). 



(6.6) 



De manera similar 



Y^y) = F Y {y) = |' x /_/(*, t)dxdt = ¡[jrUW = FK y). (6.7) 



Así puede determinarse la distribución acumulativa marginal de X dejando que 
y tome un valor igual al límite superior de la función de distribución conjunta de X 
y Y. 

Ejemplo 6.3 Sean A 1 y y dos variables aleatorias continuas con una función de den- 
sidad de probabilidad conjunta: 



/(*.y) = 



3x(l - xy) «Je, y ss 1, 



LO para cualquier otro valor. 

Obtener las distribuciones de densidad marginal y acumulativa de X y Y. 
La función de densidad marginal de X es 

x-y 



í< 



f x {x) = 3 -v(l - xy)dy = 3 \xy 



3.v 1 



De manera similar para Y 



f y (y) = 3 | o jt<1 - xy)dx = 3 (^ - * y 



2 „3. 

2 3 



= (3 - 2y)/2. 



La distribución acumulativa conjunta de A" y y es 

F{x, y) = 3 J I //(l - uv)dvdu = 3 J luy - - 



V 



í/m 



= .v 2 y(3 - .vy)/2, =£ jc, y « 1. 
Por lo tanto, las distribuciones acumulativas marginales de Xy y están dadas por 
F x (x) = F{x, 1) = .v 2 (3 - x)/2, € .v =s 1, 

y 

/>(y) = F(l, y) = y(3 - y)/2, ^ v « 1 , 
respectivamente. 



6.4 Valores esperados y momentos para üistriOuaones Divariaaas íyi 

6.4 Valores esperados y momentos para distribuciones bivariadas 

En esta sección se tratarán los conceptos de valor esperado y momentos para distri- 
buciones conjuntas de probabilidad. 

Definición 6.5 Sean Xy Y dos variables aleatorias que se distribuyen conjunta- 
mente. El valor esperado de una función de A" y de Y, g(x, y), se define como 

E[ g (X,Y)] = 22*(*.:y)pC*.y) 

* y 

si X y Y son discretas, o 

E[g(X,Y)} = j J_g(x,y)f(x,y)dydx 

si Xy y son continuas, en aondepOc, y)yf(x, v)son las funciones de probabilidad y 
de densidad de probabilidad conjuntas, respectivamente. 

Sin pérdida de generalidad, se restringirá la presentación al caso continuo. 
Como consecuencia de la definición 6.5, el r-ésimo momento de -Y alrededor del cero 
es 



De manera similar 



E(X r ) = j J x x r f(x, y)dydx 
= \ jj x (x)dx. 

E(Y') = \_J r f Y {y)dy. 



(6.8) 



(6.9) 



El r y s-ésimo momento producto de X y Y alrededor del origen es: 
E(X'Y 5 ) = J j jYfix, y)dydx, 



(6.10) 



y alrededor de las medias es 

E{{X - iL X y(Y - Mr) 1 } = j J _ Cv - (¿xY (y - nrYA*. y)dydx, (6. 1 1) 

en donde rys son enteros, no negativos. Nótese que el r-ésimo momento de A" alre- 
dedor del cero se obtiene de (6.10) con s = 0. De manera similar, el r-ésimo momen- 
to central de X puede determinarse a partir de (6.1 1) con s = 0. 

De particular importancia es el momento producto alrededor de las medias cuan- 
do r = s = 1 . Este momento producto recibe el nombre de covarianza de Xy Y, y se 



ÜÜffl 
i:- 
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encuentra definido por 

Cov(X, Y) = E{(X - fi x )( Y - n r )\. (6. 12) 

Al igual que la varianza, que es una medida de la dispersión de una variable aleato- 
ria, la covarianza es una medida de la variabilidad conjunta de Jf y de Y. De esta 
forma, la covarianza es una medida de asociación entre los valores de A" y de y y sus 
respectivas dispersiones. Si, por ejemplo, se tiene una alta probabilidad de que valo- 
res grandes de X se encuentren asociados con valores grandes de Y, la covarianza 
será positiva. Por otro lado, si existe una alta probabilidad de que valores grandes de 
A" se encuentren asociados con valores pequeños de y o viceversa, la covarianza será 
negativa. Se demostrará posteriormente que la covarianza es cero si X y Y son 
estadísticamente independientes. 

Desarrollando el miembro derecho de (6.12) se tiene 

E{(X - ¿ X )(Y - Mk )} = E[XY - Xn r - ».v + n xl i r ] 

= E(XY) - m.Mk; 
de esta forma 

CovlX, Y) = E(XY) - E{X)E(Y). (6.13) 

Si la covarianza de X y de y se divide por el producto de las desviaciones están- 
dar de X y de Y, el resultado es una cantidad sin dimensiones que recibe el nombre 
de coeficiente de correlación y que se denota por p(X, Y):* 

p(X, Y) = Cov(X, Y)/<r x <r Y . (6. 14) 

Se puede demostrar que el coeficiente de correlación se encuentra contenido en el in- 
tervalo - 1 sps 1 . De hecho p es la covarianza de dos variables aleatorias estan- 
darizadas X' y Y' en donde X' = (X - h x )/<t x y Y' = (Y - y. Y )ld Y . Esto sig- 
nifica que el coeficiente de correlación es sólo una medida estandarizada de la aso- 
ciación lineal que existe entre las variables aleatorias X y Y en relación con sus 
dispersiones. El valor p = indica la ausencia de cualquier asociación lineal, 
mientras que los valores - 1 y + 1 indican relaciones lineales perfectas negativa y 
positiva, respectivamente. En este punto es necesario señalar que debe rechazarse 
cualquier otra interpretación de la palabra "correlación". Después se expondrá con 
detalle el coeficiente de correlación cuando se estudie el análisis de regresión. 

Ejemplo 6.4 Sean X y y dos variables aleatorias con una función de densidad con- 
junta de probabilidad. 



./U.v) 



- (a + y)exp( -a) x > 0. < y < 



para cualquier otro valor. 
* Se omitirá la identificación de las variables aleatorias cuando sea necesario. 
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Obtener la covarianza y el coeficiente de correlación de A" y de Y. 
Si se toman los valores esperados apropiados, se tiene 

E(X) = -JJ u (x 2 + xy)t\p(-x)dydx 



2 r 

= - I (.v 2 + x/2)exp(-x)dx 

= - x 2 e\p(-x)dx + - xe\p(-x)dx 

3 Jo 3 Jo 



3 

= 2T(3) £(2) 
3 + 3 

= 5/3: 

-> r f 



E(X ¿ ) = - I I (.v 3 + .vV)exp(-.vWví/.v 

3 Jo Jo 

2 r i r 

- x 3 exp( -*)í¿c + - .v 2 exp(-.v)í¿r 

3 Jo 3 Ju 



2H4) r<3) 

= 14/3; 



E(Y) = - í Uv + y 2 )cxp(-x)dydx 
3 Jo Jo 

ir ir 

= - xexp(-.v)í/j: + - exp(-,v)í/jr 
3 Jo 9 Jo 

_ H2) | 2 

3 + 9 

= 5/9: 

E(Y 2 ) ==-\ i (.vv : + v')exp(-jrWví/.v 

3 J» Jo 

I .v exp( ~x)dx + - exp(-.v)</.v 

Jo 6 Jo 



2 f- 

9 

2F<2) I 



9 6 

7/18: 
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E(XY) = !J o J o <* 2 y + xy 2 )exp(-x)dydx 

\ r 2 p 

= - I x 2 exp( - x)dx + - \ x exp( - x)dx 
3 Jo 9 Jo 

= n3) + 2T(2) 
3 9 

= 8/9. 
Por lo tanto 

Cov(X,Y) = E(XY) - E(X)E(Y) = 8/9 - (5/3)(5/9) = -1/27. 
Dado que 

Var(A-) = E(X ¿ ) - E 2 (X) = 17/9 

y 

Var(Y) = £(y 2 ) - E 2 (Y) = 13/162, 
el coeficiente de correlación es 

- 1 /27 
p(^, K) = 7 = = -0.0951. 

V(17/9)(13/162) 



6.5 Variables aleatorias estadísticamente independientes 

En el capítulo dos se mencionó que dos eventos son estadísticamente independientes si 
su probabilidad conjunta es igual al producto de sus probabilidades marginales. En esta 
sección se extenderá el concepto de independencia a variables aleatorias. A fin de asegu- 
rar la consistencia de la definición debe insistirse que para variables aleatorias estadís- 
ticamente independientes, la probabilidad conjunta P(a < X < b, c < Y < d) 
es igual al producto de las probabilidades individuales P(a < X < b) yP(c< Y < d). 
En este punto se proporciona la siguiente definición: 

Definición 6.6 Sean X y y dos variables aleatorias con una distribución conjunta. 
Se dice que X y Y son estadísticas independientes si y sólo si, 

p(x, y) = Px(x)p Y (y) si X y Y son discretas 
o bien 

f(x, y) = f x (x)fA y) si X y Y son continuas, 

para toda xy y, en donde p(x, y) y/(.v, y) son las funciones bivariadas de probabili- 
dad y de densidad de probabilidad, respectivamente, y en donde Px(x), Pr(y),f x (x), 
y fAy) son las funciones de probabilidad marginal o de densidad de probabilidad 
marginal apropiadas. 
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Se desprende de esta definición que si A - y y son estadísticamente independientes, 
la probabilidad conjunta 



P(a < X < b, c < Y < 






y)dydx 



fx(x)f Y {y)dydx 

Ja Je 

\j x {x)dx[f Y (y)dy 



= P{a<X<b)P{c< Y<d). 
Para la misma condición, 

E(XY) = j J jyf{x,y)dydx 

= J _ J x Wfx MM y)dydx 

= j_^xf x (x)dx J_^yf Y (y)dy 

= E{X)E{Y). 

Si X y Y son estadísticamente independientes, entonces Cov(X, Y) - p(X, Y) = 0. 
Sin embargo debe hacerse hincapié en que la proposición inversa no es cierta. Es 
decir, una covarianza igual a cero no es una condición suficiente para asegurar la in- 
dependencia entre variables aleatorias. Debe notarse que si X y Y no son estadística- 
mente independientes, son estadísticamente dependientes. 

Se establecerán algunos resultados útiles con base en las definiciones 6.5 y 6.6. 
Sean A" y y dos variables aleatorias continuas con una función de densidad conjunta 
de probabilidad f(x, y). 

El valor esperado de una función lineal de A" y y es 

EUiX + bY) = I J (o.v + by)f(x,y)dydx 

= a J J ^ .v/'(.v. y)dydx + b J J ^ vfl.v. y)dydx 



= aE(X) + bE(Y) 

para cualquier valor de las constantes a y b. 
La varianza de una función lineal de A y y es 

VaiiaX + hY) = E(aX + bY) 2 - E z (aX + bY) 

= EUrX 2 + labXY + b : Y z ) - [aE(X) + bE(Y)] 2 



(6.15) 
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= a 2 E(X 2 ) + 2abE(XY) + b 2 E(Y 2 ) 

- a 2 E\X) - 2abE(X)E(Y) - b 2 E 2 (Y) 
= a 2 Var(X) + b 2 Var(Y) + 2abCov(X,Y). 



(6.16) 



Como consecuencia de los resultados anteriores, se tiene que el valor esperado de 
la suma de A" y y es la suma de los correspondientes valores esperados de A" y y, y la 
varianza de la suma de A" y y es igual a la suma de las respectivas varianzas más 
la covarianza de A y Y. Además, si A y y son estadísticamente independientes. 



Var(aX + bY) = a 2 Var(X) + b 2 Var(Y). 



(6.17) 



La generalización de estos resultados a n variables aleatorias se hace por inducción y 
se establece en el siguiente teorema: 

Teorema 6.1 Sean X, , X 2 , ■■■, X n n variables aleatorias con una función de den- 
sidad conjunta de probabilidad f(x,, x 2 , ..., x n ). Entonces 



a,£(A,) 



Var 



n 

2 a,X i 

_í=l 


n 

= 2 

i= 1 


n 
2 a;X; 

-<= 1 


n 

/= i 



= 2 aJVariXi) + S S «,«,Cov(*,, X,) 



= i /-i 



para cualquier constante a¡, i = 1, 2, ..., n. 

Ejemplo 6.5 Un vendedor obtiene sus ingresos mediante la venta de dos productos 
distintos. Por experiencia sabe que el volumen de ventas de A no tiene ninguna in- 
fluencia sobre el de B. Su ingreso mensual es el 10% del volumen, en dólares, del 
producto A y el 15% del volumen de B. Si en promedio las ventas del producto A 
ascienden a $10 000 con una desviación estándar de $2 000 y las de B a $8 000 con 
una desviación estándar de $1 000, obténgase el valor esperado y la desviación están- 
dar del ingreso mensual del vendedor. 

Sean A y y dos variables aleatorias que representan el volumen de ventas en dó- 
lares de los productos A y B, respectivamente. Por hipótesis: 

E(X) = 10 000, d.e.(X) = 2 000: E(Y) = 8 000. d.e.(Y) = I 000. 
De esta forma se tiene 

£(0.1* + 0.15 K) = 0.1 E(X) + 0.15 E(Y) = $2 200, 

y 

Var(0.\X + 0.15 y) = 0.01 Var(X) + 0.0225 Var(Y) = 62 500. 



m 

V 



La desviación estándar es de $250. 
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6.6 Distribuciones de probabilidad condicional 

Supóngase que un tanque de agua contiene dos contaminantes. Sean X y Y dos varia- 
bles aleatorias que representan el nivel de estos contaminantes en una porción del tan- 
que que a su vez se encuentra representada por una superficie rectangular. Supónga- 
se que el nivel observado de concentración de Y es y, pero no se observa X. Si se conoce 
la función de densidad conjunta de probabilidad /(jt, y), se necesita obtener una 
función que proporcione la probabilidad de que el nivel de concentración de X esté 
contenido en un intervalo (a, b) dado el valor observado de Y. Considere la función 

f(x,y)/f r (y), 

en donde f Y (y) es la densidad marginal de Y. Si se mantiene constante a la variable 
aleatoria Y en el valor observado .y de manera tal que f Y (y) > 0. entonces f(x. y)/f Y 
(y) define una función no negativa de A" cuya integral es 1, dado que por definición 

f f -yj^ dx = -^-\ flx, y)d.x = f Y (y)/f Y (y) = 1. 

De esta forma, f{x, y)/f Y (y) es una función de densidad de probabilidad y la pro- 
babilidad de que a < X < b, dado que el nivel de concentración de Fes y, está 
dada por: 

P(a < X < b \ y) = í f -^~ 4 dx - < 6 - 18 > 

Definición 6.7 Sean X y Y dos variables aleatorias con una función de densidad 
conjunta de probabilidad f(x, y). La función de densidad de probabilidad condi- 
cional de la variable aleatoria X, denotada por f(x \ y), para un valor fijo y de Y, 
está definida por 

fb\y)=f(x,y)lf Y (y), 

en donde f Y {y) es la función de densidad de probabilidad de Y de manera tal que 

fr(y) > 0. 

De manera análoga, la función de densidad de probabilidad condicional de Y 
para un valor fijo x de X se define como 

/( y | .v) = /(.r, y)// v (.v) f x (x) > 0, (6. 19) 

en donde f x (x) es la densidad marginal de A". Puede pensarse a f(x | y) como una 
función que da la densidad de probabilidad a lo largo de una línea horizontal en el 
plano (x, y) correspondiente a un valor fijo y de Y. De manera similar, /(>• | x) es 
una función que da la densidad de probabilidad a lo largo de una línea vertical en el 
plano (x, y) correspondiente a un valor x de X. 
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Nótese que si la densidad condicional f(x \ y) por ejemplo, no contiene a y, en- 
tonces X es estadísticamente independiente de Y. Esto es, si X y Y son estadística- 
mente independientes, entonces 

ñx, y) = f x (x)fAy) 



f(x\y)=f(x,y)/My) 

= fx{x)f Y {y)/f Y {y) 
= fxix). 



De manera similar, si 



entonces 



f(x,y)=f x (x)f r (y), 
f(y\x)=Mx)f r (y)/f x (x) 

= fr(y). 

Los valores esperados condicionales se definen de manera análoga a la señalada 
en la definición 6.5. Por ejemplo, los valores esperados condicionales de A" puesto 
que Y = y, y de Y, ya que X = x, se definen como 

E(X | y) = J ^ xf(x | y)dx 
y (6.20) 

E(Y\x) = J jf(y\x)dy, 

respectivamente. El valor esperado de X dado y es una función del punto fijo y y re- 
presenta la media de A" a lo largo de la línea correspondiente di y. Por simetría, el va- 
lor esperado condicional de Y dado x es una función de x y representa la media de Y 
a lo largo de la línea correspondiente a x. De manera similar, 



en donde 



Var(X | y) = E(X~ | y) - E(X \ y) 
Vur(Y\x) = E(Y 2 \x) - E 2 (Y\x), 

E(X 2 \y) = I rf(x\y)dx 
E(Y 2 \x) = J y : /(y|.vWy. 



(6.21) 



(6.22) 
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Ejemplo 6.6 Sean A" y y los niveles de concentración en ppm de dos contaminantes 
en una determinada porción de un tanque de agua. Si la función de densidad conjun- 
ta de probabilidad está dada por 



f(x,y) = 



(x + y)/8000 < x, y < 20, 







para cualquier otro valor, 



y si el nivel de concentración observado de yes de 10 ppm, obtener la probabilidad 
de que el nivel de concentración de X sea, a lo más, 14 ppm. Obtener la media y la 
varianza condicional de X para Y = 10 ppm. 



Dado que 



se tiene 



f(x, y) = (x + y)/8000 < x, y < 20, 



fy(y) = ¿5 /„ <* + y"> dx = (y + ,0 )/ 400 ' 

y la densidad de probabilidad condicional de X es 

/(jc|y) = (x + y)/20(y + 10), 
la que se reduce a 

f(x\Y = 10) = (jc + 10)/400 
para Y = 10. Por lo tanto, 



P(X =£ 14 | Y = 10) 



-f 

Jo 



f(x I Y = \0)dx 



i r 14 
= m\ {x+ l0)dx 

400 Jo 
= 0.595. 

Para la media y varianza condicional de X en Y = 10 se tiene 

í 20 
EiX\Y= 10) = xf(x Y = I0)dx 

Jo 

1 í 20 

= ;¡¡5¡ (jf2 + l0x)dx 

400 Jo 
= 11.67; 

rio 

E(X Z | Y = 10) = x 2 /(x | Y = \0)dx 

Jo 
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r20 

,3 , m„2^ 



= 166.67; 
Var(X | K = 10) = 30.56. 

6.7 Análisis bayesiano: las distribuciones apríori y aposteríorí 

Se estableció en la sección 2.8 el teorema de Bayes para probabilidades condicionales 
de eventos discretos. En este contexto se examinará de manera breve cómo emplear- 
lo para modificar el grado de creencia con respecto a los resultados de un fenómeno 
al tenerse nueva información de éste. Sin embargo, es más importante la representa- 
ción que proporciona el teorema de Bayes para la distribución condicional de una 
variable aleatoria ya sea ésta cotinua o discreta. Tal representación es importante de- 
bido a que, como se verá en el capítulo 8, proporciona el mecanismo necesario sobre 
el cual se basa la inferencia bayesiana. En esta sección se examinarán los conceptos 
de distribución a priori y distribución a posteriori y se volverá a plantear el teorema de 
Bayes con estos conceptos. 

Sea Y una variable aleatoria (discreta o continua) definida de manera tal que sus 
valores representan las posibles opciones en que puede ocurrir un fenómeno aleato- 
rio antes de llevar a cabo un experimento. El grado de creencia del investigador con 
respecto a estas posibilidades se encuentra expresado por una función de probabili- 
dad p r (y), que recibe el nombre defunción de probabilidad a priori de Y, si Yes 
discreta, o una función de densidad f Y (y)* denominada función de densidad de pro- 
babilidad apríori de Y, si Yes continua. La especificación de la forma de p Y (y) o 
fy(y) depende de la convicción del investigador con respecto a los valores de y antes 
de que la información muestral se encuentre disponible. Esta convicción se puede 
basar en cualquier tipo de información que se encuentre disponible, incluyendo el 
juicio subjetivo. Sea f(x | y) la función de densidad de probabilidad condicional de 
cualquier variable aleatoria X*, la cual representa evidencia muestral en función 
de una alternativa fija y de Y. La función f(x | y) recibe el nombre defunción de 
verosimilitud debido a que representa el grado de concordancia del resultado 
muestral x, dado el valor y de Y. 

Cuando la información apríori con respecto a los valores de Y se combina con la 
información que proporcionó la muestra, el resultado es un conjunto de información 
modificada con respecto a la variable aleatoria Y. En otras palabras, la combinación 
de la distribución a priori y de la función de verosimilitud origina una distribución 
condicional para Y, dado el resultado muestral, que se conoce como la distribución a 
posteriori de Y. Esta combinación se hace de acuerdo con el teorema de Bayes, mismo 
que se replantea de la siguiente forma: 

Teorema 6.2 Sea /?>(>') o f Y (y) la función de probabilidad o de densidad de pro- 
babilidad a priori de Y, respectivamente, y sea f(x | y) la función de verosimilitud. 

* Se supone que la variable aleatoria X es continua aunque también puede ser discreta. 
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Entonces la probabilidad aposleriori o función de densidad de probabilidad aposte- 
riori de Y dada la evidencia muestral x, es 

P(y'|x) = jyj y ? P * {y } , si Y es discreta, (6.23) 

Y 

fty\x)= f(x ' y) f r{y} si y es continua. (6.24) 



\ñx | yy K (yWy 



La función de probabilidad a posteriori p(y | jc) o la función de densidad de 
probabilidad a posteriori f( y \ x) reflejan el grado de creencia modificado del inves- 
tigador con respecto a la variable aleatoria Y después de obtener información mues- 
tra!. Dado que esta información se puede verificar de manera periódica, puede 
adoptarse fácilmente un punto de vista secuencial. En este contexto, la distribución 
a posteriori actual puede convertirse, en un futuro, en una distribución a priori 
cuando sea necesario llevar a cabo otra revisión con respecto a la variable aleatoria. 
La revisión periódica de las probabilidades se hace posible mediante el empleo suce- 
sivo del teorema 6.2. 

Es interesante notar que el denominador de (6.23) o (6.24) es la función de densi- 
dad de probabilidad marginal o no condicional de X; esto es, 

fx(x) = 2f(x\y)Pr(y) (6.25) 



fxU)= j y f( X \y)f Y (y)dy, (6.26) 

dependiendo de cuando Y es discreta o continua, respectivamente. Además, el nu- 
merador de (6.23) o (6.24) es el producto de la función de verosimilitud y la función 
de probabilidad a priori y, de esta manera, es la probabilidad conjunta de X y Y 
expresada como 

f(x. y) = /(.v| y)p } (y) si 7 es discreta, (6.27) 



f(x, y) = f{x | y)fr(y) si y es continua. (6.28) 

Nótese que para (6.27) la función f(x, y) es una mezcla bivariada de una variable 
aleatoria continua y otra discreta. 

Ejemplo 6. 7 Un vendedor de artículos domésticos nota que el número de personas 
que compran determinada marca de televisores varía aleatoriamente en el tiempo. El 
vendedor concluye que esta proporción es una variable aleatoria discreta que puede 
tomar los valores de 0.3, 0.35, 0.4 y 0.45, dependiendo de diversas consideraciones 



202 Distribuciones conjuntas de probabilidad 

de tipo económico. Con base en información previa, les asigna las probabilidades a 
priori 0.4, 0.3, 0.2 y 0.1, respectivamente. Una muestra de tamaño n = 15 revela 
que ocho de los televisores que se venden son de la marca de interés. Si se supone que 
para una proporción en particular p, el número de televisores de la marca que se 
vende para una muestra fija n es una variable aleatoria binomial, obtener las proba- 
bilidades a posteriori. 

Sea X la variable aleatoria que representa el número de aparatos de la marca de 
interés que se venden de una muestra de tamaño n. El valor X = 8 para n = 15, 
representa la evidencia muestral condicionada sobre una proporción en particular p 
de preferencia del consumidor para esta marca. Por hipótesis X es binomial y su 
función de verosimilitud es 



P(x; 15 | p) = 



— rl' r< 



P y 



(15 - x)lx\ 

Si p = 0.3, el valor de verosimilitud de la muestra es 

15! 



x = 0, 1,2, ..., 15. 



P(X = %\p = 0.3) = p(8; 15 | 0.3) = 



(0.3) 8 (0.7) 



15-8 



0.0348. 



(15 - 8)!8! 

Para los demás valores de p se tiene 

P(X = &\p = 0.35) = 0.071, 
P(X = S\p = 0.4) = 0.1181, 
P(X = &\p = 0.45) = 0.1647. 

Nótese que las dos variables aleatorias son discretas. A pesar de lo anterior, 
puede emplearse el teorema de Bayes (6.23) para obtener las probabilidades a poste- 
riori. La tabla 6.1 proporciona los detalles computacionales. La suma de las proba- 
bilidades tanto a priori como a posteriori debe ser igual a uno, dado que cada una de 
éstas es una distribución de probabilidad. En la figura 6.2 se ilustran las gráficas 



TABLA 6.1 Determinación de las probabilidades a posteriori para el ejemplo 6.7 









Probabilidad 
a priori 




Valores de la 


Probabilidad 


Verosimilitud 


X 


Probabilidad 


proporción 


a priori 


de la muestra 


verosimilitud 


a posteriori 


0.3 


0.4 


0.0348 


0.01392 


0.01392/0.07531 = 0.1848 


0.35 


0.3 


0.071 


0.02130 


0.02130/0.07531 = 0.2828 


0.4 


0.2 


0.1 181 


0.02362 


0.02362/0.07531 = 0.3137 


0.45 


0.1 


0.1647 


0.01647 


0.01647/0.07531 = 0.2187 


Totales 


1.0 




0.07531 


L.0000 
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FIGURA 6.2 r rolabilidades a priori y a posteriori para el ejemplo 6.7 
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de arribas distribuciones de probabilidad, las que muestran un desarrollo notable en 
las probabilidades para los cuatro valores posibles de p. También existe un de- 
sarrollo en los valores esperados de la preferencia del consumidor para esta marca. 
El valor esperado a priori es 0.35 y el valor esperado a posteriori es 0.3783. 

Se mencionó en la sección 4.5 que la distribución binomial negativa es una alternati- 
va adecuada del modelo de Poisson cuando la frecuencia de ocurrencia no es constante 
sobre el tiempo o el espacio. Por ejemplo, en las estadísticas de accidentes es poco pro- 
bable que la frecuencia con que éstos se presentan entre grupos distintos sea constante 
e independiente sobre un lapso fijo. Lo anterior tiene como consecuencia que el 
punto de vista bayesiano sea una forma de análisis de estos datos mucho más apro- 
piada. 

Supóngase que todas las posibles frecuencias de ocurrencia pueden considerarse 
como valores de una variable aleatoria continua A, cuya distribución a priori es una 
distribución gama con una función de densidad dada por 






/(X;¿\ 0) = 777— ;X*-'exp(-X/0), X > 0. 

1 \K)V 



(6.29) 



Sea X una variable aleatoria que representa el número de accidentes que se observan 
en un grupo específico. Entonces puede argumentarse que A' es una variable aleato- 
ria de Poisson que depende de una k específica de A, con una función de verosimili- 
tud dada por 



p(x ¡ X) = X v exp(-\)/x! 



= 0, 1,2, 



(6.30) 



Antes de obtener la distribución a posteriori de A, se demostrará que la función de 
probabilidad marginal de X es la binomial negativa. Esto es, si para cada valor X 
de A, X tiene una distribución de Poisson, entonces la distribución no condicional de 
X sobre todos los posibles valores de X es la binomial negativa. 
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De (6.26) se desprende que la función de probabilidad marginal de X es: 



Px(x) 



= f P(x | k)f x (\)dk. (6.31) 

Jo 



Nótese que el integrando de (6.3 1) es la función de densidad conjunta de probabili- 
dad de X y A, lo que da como resultado una mezcla bivariada de una variable aleato- 
ria discreta con una continua. 

La sustitución de (6.29) y (6.30) en (6.31) conduce a: 



> M -Tuh£ k "'~'">[- k [ L r) 



d\. (6.32) 



En el integrando de (6.32) sea u = A [(0 + l)/0]; de esta forma X = [6/(6 + 1) 
]u y d\ = [8/(8 + \)}du. Entonces 

Px(x) = ürwl m + ir^^-'expí-wW" 
8/(6 + \) x+k Y(x + k) 



ru + /t)/ i W Y x = o,i,2, 



.vir(Á) U + i U+i/' ¿, 0>o. 



(6.33) 



La expresión (6.33) es idéntica a la dada por (4.35), que es la función de proba- 
bilidad de la distribución binomial negativa para k > 0. Nótese que en (6.33), 
p = 1/(8 + 1) y 1 - p = 8/(8 + 1), de forma tal que < p < 1 dado 
que 8 > 0. Además, de (4.39) la media de X es 

De esta manera, la distribución binomial negativa es una combinación de distribu- 
ciones de Poisson donde la frecuencia aleatoria de ocurrencia tiene una distribución 
gama cuya media es igual a la media de Poisson. Por esta razón la distribución bino- 
mial negativa también se conoce como una distribución compuesta de Poisson. 

Mediante el empleo del teorema 6.2 y, en particular, de la expresión (6.24), se 
puede obtener la densidad de probabilidad aposteriori de A condicionada al resul- 
tado muestral x de la siguiente forma: 

/(x i v) = b*!!: ' ex p< - w + l) /w I r < v + k) ( ' VY J 



r(A)0*.v! / x\V(k). \d + \J \8 + l 

x A+A 'exp{-[(0 + p/fl]\} nn*!(fl + I)"* 

r(jt).r!0* ' Rr + k)d* 

[(6 + p/erv + * -' exp {-[(fl + i)/t)]x} > 

n.r + A) 
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La comparación de (6.34) con la función de densidad de probabilidad de la distribu- 
ción gama, dada por (5.45), muestra que la distribución a posteriori de A es una dis- 
tribución gama con parámetros de forma x + k y de escala 0/(0 + 1). Debe notar- 
se que si las distribuciones a priori y a posteriori pertenecen a la misma familia de 
distribuciones, como en el presente caso, ésta recibe el nombre de familia conjugada 
con respecto a la distribución de la muestra de datos. En este caso, la familia gama 
se conjuga con respecto a la distribución de Poisson. 



Ejemplo 6.8 Supóngase que para las estadísticas de accidentes se decide asignar a 
la frecuencia de ocurrencia una distribución a priori gama con parámetro de forma 
dos y de escala tres. Supóngase que posteriormente se observan dos accidentes para 
una frecuencia en particular. Obtener la función de densidad a posteriori de la fre- 
cuencia, dado el resultado muestral, y compararla con la densidad a priori. 

Sea A la frecuencia de ocurrencia. De (5.45) la densidad a priori de A es 

A(X;2, 3) = -Xexp(-X/3), X > 0. 

Dado un resultado muestral X = 2, la densidad a posteriori de A que se obtiene de 
(6.34) es 

/(X; 4, 3/4 | jc) = g(4/3)Vexpí-íxj, X > 0. 

En la figura 6.3 se proporciona una comparación entre las funciones de densidad a 
priori y a posteriori. De ésta es evidente que la densidad a posteriori se encuentra 
menos asimétrica que la densidad a priori. Nótese que la frecuencia media a priori es 
seis mientras que ésta misma a posteriori es tres. 

En la sección 5.4 se mencionó que la distribución beta tiene un papel muy impor- 
tante en la estadística bayesiana. Para ilustrar lo anterior considérese de nuevo el 
análisis bayesiano del parárametro de proporción de la distribución binomial. 

Ejemplo 6.9 En un proceso de manufactura, el interés se centra alrededor de la 
proporción de artículos defectuosos. Dado que es poco probable que el proceso 
tenga cambios menores en un lapso determinado como distintos desarrollos, va- 
riaciones en la materia prima y otros que pueden influir en la proporción de artículos 
defectuosos, es razonable pensar la proporción de éstos como una variable aleatoria 
cuyos posibles valores se encuentran en el intervalo (0, 1). Para una proporción dada 
de artículos defectuosos p, se sabe que el número x de éstos que se observa en una 
muestra aleatoria fija de n artículos es binomial. Esto es, la función de probabilidad 
condicional de X para n fijo, dado p, es 

n' 

p(x\ n p) = — p\l - pf \ x = 0. 1. 2, ... n. 

(n - x)\x\ 
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Densidad a posteriori 




FIGURA 6.3 Densidades a priori y a posteriori para el ejemplo 6.8 



Si la distribución a priori de la proporción de artículos defectuosos es una distribu- 
ción beta con una función de densidad de probabilidad 



^ ; »•^F¡^^•-• ( '-<^ , 



0*£ p « I, 



(6.35) 



demostrar que la distribución a posteriori de la proporción de artículos defectuosos, 
dado el número x de éstos, también es una distribución beta. 

De (6.24) la densidad de probabilidad a posteriori de la proporción de artículos 
defectuosos es: 



ftp I x) 



p(x\ n | p)Mp; a, ¡3) 
p(x; n \p)f,,(p:a. fi)dp 







n - x)\.x\ 



„-, Ha + /3) n . , 



R« + jS) 



(n-x)lx\ Ha) H/3) Jo 
p— "'(I - p)'-"--' 
p""'(l - p)"^-<~'dp 



'""'(I - pT^-'-'dp 
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pero de (5.33), la integral /¿// +a ~'(l - pY* f ~"~ l dp = B(x + a, n+B-x). Por lo 
tanto, la densidad a posteriori es: 



ñp\x) = 



p x+ "-\\ - p)"^-'" 1 
B(x + a, n + B - x) 

n« + « + jB) 

TU + a) T(n + B - x) 



^ + -'íl - p) 1 



jW/3-.i- I 



0^ p ^ 1, (6.36) 



que es una densidad beta con parámetros (x + a)y (n + B - x). Por lo tanto, la 
familia conjugada para la distribución binomial es la familia de distribuciones beta. 

6.8 La distribución normal bivariada 

En el capítulo cinco se estudió la distribución norma] de una variable aleatoria. El 
concepto de distribución normal puede extenderse para incluir variables alea- 
torias. En particular, la distribución normal bivariada se emplea de manera extensa 
para describir el comportamiento probabilístico de dos variables aleatorias. 

Definición 6.8 Se dice que las variables aleatorias X y Y tienen una distribución 
normal bivariada si su función de densidad conjunta de probabilidad está dada por 



Ax, y) = 



l 



- 2p 



2tt cr x a y V 
- Px 



= exp 



<*X 



Pi 



a y 



1 


2(1 - p 2 ) 

'y - PrYl 


\ <r Y / _ 



x - Px 



(6.37) 



-= < x, y < 



en donde 



p x = E(X), p Y = E(Y), <i x = Var(X), cr\ = Var(Y), 



y p es el coeficiente de correlación de X y Y, definido en la sección 6.4. 









La figura 6.4 ilustra la función de densidad normal bivariada que es una superfi- 
cie tridimensional con forma de campana. Cualquier corte a través de la superficie 
da origen a una curva de forma normal univariada, mientras que planos paralelos al 
plano xy interceptan la superficie en elipses que reciben el nombre de contornos de 
probabilidad constante. 

Es interesante notar que, a pesar de que p = es una condición necesaria de in- 
dependencia, para la distribución normal bivariada también es una condición sufi- 
ciente. Eso es, si p = 0, entonces 



fix, v) = 



2w(T x cr, 



exp 



Px 



P> 
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-2.0 



FIGURA 6.4 Densidad normal bivariada con E(X) = E(Y) = 0, Var(X) = Vur(Y) = I, 
yp = 



1 



exp 



(-* - Ma )V2cr 2 v 



1 

—== — exp 
\2tt ct y 



-( v - Mi-) 2 /2cri- 



V2tt o-.v 

= fx(x)fy(y). 

en donde / v (.v) y /,•( v) son las densidades normales univariadas de Xy Y, respecti- 
vamente. 

Se puede demostrar que, mediante el empleo de (6.37) e integrando con respecto 
a y, la densidad marginal de X es normal con media Ma varianza cr A - De manera si- 
milar, la densidad marginal de Yes normal con media m> y varianza o~\. Por la de- 
finición 6.7, la densidad de probabilidad condicional de X dado el valor y de y es 



/(•v| >■: 



\ 2- (T X ( I 



x exp 



(>') 



2cr; Y (l - p~) 



v " Ma- 



P ""a 

a y 



(y - m>> 



(6.18) 



La expresión (6.38) es una función de densidad de probabilidad normal con 



a,v v: 



Ma- 



(y - m¡) 



V 7 í//-(A'í v) 



"■a (I - P")- 
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Se puede obtener una expresión similar para la densidad condicional de Y dado el 
valor x de X. 

Ejemplo 6.10 Sean A" y y las desviaciones horizontal y vertical (sobre un plano), 
respectivamente, de un vehículo espacial tripulado con respecto al punto de aterriza- 
je de éste en el mar de la Tranquilidad. Supóngase que A" y y son dos variables alea- 
torias, independientes cada una, con una distribución normal bivariada y medias 
Hx — ^y = y varianzas iguales. ¿Cuál es la máxima desviación estándar permi- 
sible de X y Y, que cumplirá Con el requisito de la NASA de tener una probabilidad 
de 0.99, de que el vehículo aterrice a no más de 500 ft del punto elegido, tanto en di- 
rección vertical como horizontal? 

Debido a la independencia y a la hipótesis de que cr x = o> = o-, la probabili- 
dad conjunta es 

P( - 500 < X < 500, - 500 < Y < 500) = P( -500 < X < 500) 

f(-500< r<500) 

. 500 , 500 
= f| <z< 

O" O" 

. P| _^ <Z< ^ 
a a 

500 „ 500 
— <Z< 

O" (T 



Puesto que por hipótesis es 



500 500\ 

<Z< — = 0.99, 

O" O" / 



500 500 \ 

< Z < — | = 0.99499 

O" O" 



P\Z>—\ = 0.0025, 



pero 



P(Z> 2.81) = 0.0025: 
por lo tanto 500/tr = 2.81. y o\ v = o-, ■ =s 177.94 pies 
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Ejercicios 



6.1. Se seleccionaron, aleatoriamente, 60 personas y se les preguntó su preferencia con res- 
pecto a tres marcas A, B y C. Éstas fueron de 27, 18 y 15 respectivamente. ¿Qué tan pro- 
bable es este resultado si no existen otras marcas en el mercado y la preferencia se com- 
parte por igual entre las tres? 

6.2. Supóngase que de un proceso de producción se seleccionan, de manera aleatoria, 25 
artículos. Este pi jceso de producción por lo general produce un 90% de artículos listos 
para venderse y un 7% reprocesables. ¿Cuál es la probabilidad de que 22 de los 25 
artículos estén listos para venderse y que dos sean reprocesables? 

6.3. Sean Xy Y dos variables aleatorias continuas con una función de densidad conjunta de 
probabilidad dada por: 



ñx, v) 



(3_v - y)/5 1 <.v <2, 1 < v < 3, 
para cualquier otro valor. 



a) Obtener la función de distribución conjunta acumulativa. 

b) ¿Cuál es la probabilidad conjunta de que X < 3/2 y Y < 2? 

c) Mediante el empleo de sus respuestas a la parte a, obtener las distribuciones acumula- 
tivas marginales de A' y Y. 

d) Obtener las funciones de densidad marginal de X y de Y. 

6.4. Sean Xy y dos variables aleatorias continuas con una función de densidad conjunta de 
probabilidad dada por 



/(■v, y) 



.vexpf-jr(y + 1)] -v, y > 0, 

para cualquier otro valor. 



a) Demostrar que/(.v. y) es una función de densidad conjunta de probabilidad. 

b) ¿Cuál es la probabilidad conjunta de que X < 2 y Y < I ? 

c) Obtener las funciones de densidad marginal de X y de Y. 

d) ¿Son Xy Y estadísticamente independientes? 

6.5. Sean X y Y dos variables aleatorias discretas en donde los posibles valores que éstas 
pueden tomar son — 1 . 0, y 1 . En la siguiente tabla se dan las probabilidades conjuntas 
para todos los posibles valores dt X y Y. 



X 




<> 



1/16 


3/16 


1/16 


3/16 





3/16 


1/16 


3/16 


1/16 
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a) Obtener las funciones de probabilidad marginal p x (x) y p Y (y). 

b) ¿Las variables aleatorias X y Y son estadísticamente independientes? 

c) Obtener Cov(X, Y). 

6.6. Para la función de densidad conjunta de probabilidad del ejercicio 6.3, obtener Cov(X, 

Y) y P (X, Y). 

6.7. En función de su prioridad, un programa para computadora espera en la fila de entrada 
cierto tiempo, depués del cual lo ejecuta el procesador central en un lapso dado. La fun- 
ción de densidad conjunta para los tiempos de espera y ejecución se determina por 



fi',. ':) = 



Í + 10/; 



f,,? : >0, 



para cualquier otro valor. 



2 exp 

Dada la distribución conjunta acumulativa: 

f[l - exp(-/,/5))[l - exp(-IO/.)l f,.f ; >0. 
para cualquier otro valor. 



F(/,-/;) 



a) Obtener la probabilidad conjunta de que el tiempo de espera no sea mayor de ocho 
minutos y el de ejecución no sea mayor de 12 segundos. 

b) Obtener las funciones de densidad marginal y deducir que estos lapsos son variables 
aleatorias independientes. 

6.8. Las variables aleatorias A" y y representan las proporciones de los mercados correspon- 
dientes a dos productos distintos fabricados por la misma compañía y cuya función de 
densidad conjunta de probabilidad está dada por 



f(x, y) 



(x + y) =£ x, vsl, 

para cualquier otro valor. 



a) Obtener las funciones de densidad marginal de A' y Y. 

b) ¿Las variables aleatorias X y Y son estadísticamente independientes? 

c) Si X = 0.2, obtener la función de densidad de probabilidad condicional de Y. 

6.9. Las variables aleatorias Xy y representan el largo y ancho (en cm) de una hoja de acero. 
Si X y Y son independientes con funciones de densidad de probabilidad dadas por 



./v(v) 



99 < .i < 100. 







/><v> 



1 . 49 < y < 50. 



para cualquier otro valor. 10 para cualquier otro valor. 



úsese la definición de la varianza para obtener la varianza del área de la hoja de acero 
XY. 

6.10. Sea X una variable aleatoria continua y y discreta. 

a) Si J\x. y) = r' exp(-2.v)/y!, a > 0, y = 0. I, 2 obtener la función de 

probabilidad marginal de Y. 

b) Obtener la función de probabilidad condicional de X para Y = 2. 

c) Obtener E(X \ 2) y Vur(X \ 2). 

6.11. Sean Xy Y dos variables aleatorias. Demostrar que VarU'X - bY) = a : Var{X)+ h~ 
Vur( Y) - lab Co\\X. K), en donde a y b son constantes. 



N 



vi 
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6.12. Sean A' y Y dos variables aleatorias. Demostrar que Cov{aX, bY) = ub Cov{X. Y), en 
donde a y b son constantes. 

6.13. Si X y Fson dos variables aleatorias independientes Var(X + Y) = Var(X - Y) = 
Var{X) + Var(Y). Comparar este resultado con VariX + Y) cuando Var(X - Y) 
Cov(X, Y) > o Cov(A", Y) < 0. ¿Qué puede concluirse? 

6. 14. Supóngase que la frecuencia A a la que ocurren accidentes automovilísticos en un lapso 
fijo es una variable aleatoria con una ditribución gama y parámetros de forma y escala 
igual a dos. Si para cada valor X deA la distribución condicional del número de acciden- 
tes es una distribución de Poisson, obtener la función de probabilidad marginal de A' y 
calcular las probabilidades para X = 0, 1, 2 ... 10. ¿Cómo son estas probabilidades al 
compararlas con las que se obtienen bajo la suposición de una frecuencia constante 
\ = 4? 

6.15. Supóngase que la incidencia de cáncer pulmonar para un determinado número de perso- 
nas adultas, sin importar sus hábitos de fumador, su edad, etc., es una variable aleatoria 
con distribución gama con parámetros de forma y escala iguales a dos. Para un grupo es- 
pecífico de personas, el número que presentarán cáncer pulmonar es una variable alea- 
toria de Poisson en donde el valor del parámetro de ésta depende de la incidencia de 
cáncer en este grupo. Obtener la probabilidad no condicional de que no más de dos per- 
sonas desarrollen cáncer en este grupo. 

6.16 En el ejercicio 6.15 supóngase que x = 5 adultos, de cierto número, desarrollarán cán- 
cer. Obtener la densidad aposteriori de A dado x, calcular las medias y varianzas tanto 
a priori como a posteriori y comparar los resultados. 

6.17 Supóngase que el gerente de una planta descubre que la proporción de artículos defec- 
tuosos en su proceso de producción no es constante sino que se comporta como una va- 
riable aleatoria. Sin ninguna evidencia, decide asignar una distribución beta con a = 1 
y |3 = 24 para la producción de artículos defectuosos. 

a) Graficar la función de densidad a priori y obtener su media y su varianza. 

b) Supóngase que el gerente toma una muestra ai = 12 artículos y encuentra uno de- 
fectuoso. Bajo las hipótesis necesarias, obtener y graficar la función de densidad de 
probabilidad a posteriori. 

c) Encontrar la media y la varianza a posteriori y compararlas con la medía y la varian- 
za a priori. 

d) Hágase uso del ejercicio 5.24 para obtener la probabilidad aposteriori de que la pro- 
porción de artículos defectuosos sea a lo más 0.05. 

6. 18. Supóngase que la proporción de lanzamientos exitosos de satélites de comunicaciones es 
una variable aleatoria con distribución beta y parámetros « - 2 1 y >3 = ). Si de los úl- 
timos 12 lanzamientos uno ha fracasado, obtener la función de probabilidad a poste- 
riori de la proporción de lanzamientos exitosos y calcular la probabilidad a posteriori 
para que la proporción de éstos sea mayor de 0.95. Emplee la expresión 5.44. 

6. 19. La función de densidad conjunta de probabilidad para la demanda mensual de dos pro- 
ductos es una distribución normal bivariada dada por 
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a) ¿Cuál es el coeficiente de correlación entre Xy Y! 

b) ¿Cuál es la covarianza entre A" y Y? 

c) Obtener la función de densidad de probabilidad condicional f(x | y). 

d) Supóngase que la demanda de Xes 30. ¿Cuál es la probabilidad condicional de que 
X sea menor que 65? 

6.20. Supóngase que el C\(X) y la calificación promedio de estudiantes no graduados de li- 
cenciatura Y son variables aleatorias que se encuentran distribuidas de manera conjunta 
como una distribución normal bivariada /i* = 100, cr x = 10, ¿i, = 3, a> = 0.3, y 
Cov(X, Y) = 2.25. 

a) Si algún estudiante posee un CI de 120, ¿cuáles son los valores de la media y la des- 
viación estándar condicionales para Y? 

b) Dado que el Cl es 120, obtener la probabilidad de que Y sea mayor de 3.5. 

c) Supóngase que la calificación promedio de un estudiante es 2.8. ¿Cuál es la probabi- 
lidad de que esta persona tenga un Cl mayor de 115? 



CAPITULO SIETE 



Muestras aleatorias 

y distribuciones de muestreo 



7.1 Introducción 

En el capítulo uno se mencionó que para comprender la esencia de la inferencia esta- 
dística es necesario comprender la naturaleza de una población y de una muestra. 
Una población representa el "estado de la naturaleza" o la forma de las cosas con 
respecto a un fenómeno aleatorio en particular, mismo que puede identificarse a tra- 
vés de/una característica medible X. La manera en que ocurren las cosas en relación 
con X puede definirse por un modelo de probabilidad que recibe el nombre de distri- 
bución de probabilidad de la población. Por otro lado, una muestra es una colección 
de datos que se obtienen al llevar a cabo repetidos ensayos de un experimento para 
lograr una evidencia representativa acerca de la población en relación con la caracte- 
rística X. Si la manera de obtener la muestra es imparcial y técnicamente buena, en- 
tonces la muestra puede contener información útil con respecto al estado de la natu- 
raleza y a partir de ello se podrán formular inferencias. Ahora bien, estas últimas 
son inductivas y, por lo tanto, están sujetas a riesgo, dado que representan un razo- 
namiento que va de lo particular a lo general. 

Eri los capítulos cuatro, cinco y seis se examinaron con detalle algunas distribu- 
ciones de probabilidad que pueden servir como modelo para la distribución de una 
población de interés. En los capítulos restantes el principal objetivo es examinar dis- 
tintas técnicas por medio de las cuales puede aplicarse el proceso inductivo de la in- 
ferencia estadística para proporcionar resultados útiles y confiables. La inferencia 
estadística se define como la colección de técnicas que permiten formular inferencias 
inductivas y que proporcionan una medida del riesgo de éstas. En este capítulo se es- 
tablecerán algunos conceptos teóricos básicos con respecto al muestreo y a la infe- 
rencia estadística. La aplicación de estos conceptos se dará con gran detalle en 
capítulos posteriores. 



7.2 Muestras aleatorias 

Como la inferencia estadística se formula con base en una muestra de objetos de la 
población de interés, el proceso por medio del cual se obtiene será aquél que asegure 



1 . Se diseña un experimento y se lleva a cabo para proporcionar la observación X, 
de la característica medible X. El experimento se repite bajo las mismas condi- 
ciones proporcionando el valor X 2 . El proceso se continúa hasta tener n observacio- 
nes X t , X 2 , ..., X n de la característica X. 

En este procedimiento de muestreo, las observaciones muéstrales se colectan a 
través de ensayos independientes que ocurren cada vez que el experimento se repite 
bajo condiciones idénticas para todos los factores que son controlables. En este con- 
texto, cada observación del /'-ésimo experimento se considera como una selección de 
la misma fuente que proporciona la observación de cualquier otro ensayo para X. 
En esencia, las observaciones bajo las mismas condiciones como resultado de repeti- 
dos ensayos independientes de un experimento, constituye lo que se denomina un 
muestreo aleatorio con reemplazo. De acuerdo con lo anterior, cada una de las ob- 
servaciones X¡, X z X„ es una variable aleatoria cuya distribución de probabi- 
lidad es idéntica a la de la población. 
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la selección de una buena muestra. En el capítulo uno se expuso que una manera de 
obtener una buena muestra resulta cuando el proceso de muestreo proporciona, a cada 
objeto en la población, una oportunidad igual e independiente de ser incluido en la 
muestra. Si la población consiste de N objetos y de éstos se selecciona una muestra de 
tamaño n, el proceso de muestreo debe asegurar que cada muestra de tamaño n tenga 
la misma probabilidad de ser seleccionada. Este procedimiento conduce a lo que co- 
múnmente se conoce como una muestra aleatoria simple. En este contexto, la pa- 
labra "aleatorio" sugiere una total imparcialidad en la selección de la muestra. . ; ' 11 

La naturaleza de la inferencia inductiva demanda una muestra aleatoria porque 
la selección de ésta se lleva a cabo con el fin de proporcionar los medios adecuados 
para que pueda formularse una inferencia con respecto a alguna característica de la 
población de interés. Por ejemplo, pueden formularse inferencias de ciertas condi- 
ciones que se suponen válidas para la población si la muestra que se observó se 
encuentra o no dentro de la variación muestral, misma que prevalecerá si las condi- 
ciones son verdaderas. De esta forma la calidad ó" la aleatoriedad en una muestra 
asegura la aplicación correcta de la probabilidad para evaluar el riesgo inherente en 
un proceso inductivo. 

En este momento es importante estructurar el concepto de una muestra aleato- 
ria simple empleando para ello los conceptos de probabilidad que se presentaron en 
los capítulos dos al seis. Para llevar a cabo lo anterior, primero se examinarán si- 
tuaciones que se presentan, de manera frecuente, en los muéstreos. La primera de és- M 
tas surge en muchos experimentos que involucran fenómenos aleatorios en la inge- j| 
niería y las ciencias físicas. En estos casos la población de interés no consiste en obje- : j| 
tos tangibles a partir de los cuales se selecciona un cierto número para formar la 
muestra. Más bien, la población se considera constituida por un número infinito de 
posibles resultados para alguna característica medible de interés. Esta característica 
generalmente es una medición física como el nivel de concentración de un contami- 
nante, la demanda de un producto o el tiempo de espera en un servicio. Sea X una 
característica medible y f(x; 6) la función de densidad de probabilidad de la distri- 
bución de la población. El siguiente procedimiento es una forma de muestreo para 
este tipo de población: 
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Una situación diferente se presenta cuando se lleva a cabo una selección de ob- 
jetos tangibles de una población que consiste en un número finito de objetos (seres 
humanos, animales, componentes mecánicos o eléctricos, etc.). La característica me- 
dible de interés puede ser un atributo, como el estado de un componente (defectuoso 
o no defectuoso), la opinión de una persona con respecto a cierto tema (a favor o en 
contra) o una medición cuantitativa como el CI de una persona o el tiempo de dura- 
ción de un componente. Existen dos formas para obtener muestras aleatorias de este 
tipo de población: 

2. Después de llevar a cabo una mezcla adecuada de los objetos de la población, se 
extrae uno y se observa la característica medible. Esta observación será X K . El ob- 
jeto se regresa a la población y ésta vuelve a mezclarse; después se extrae el segun- 
do objeto. X 2 se constituye por la segunda observación. El proceso se continúa de 
esta forma hasta que se han extraído n objetos para tener una muestra de obser- 
vaciones X t , X 2 , ..., X„ de la característica X. 

3. Después de una mezcla adecuada de los objetos que constituyen la población, n 
de éstos se seleccionan uno después de otro sin reemplazo. Este proceso propor- 
ciona una muestra de observaciones X,, X 2 X„ de la característica A". 

Nótese que la técnica 2 constituye un muestreo con reemplazo y la técnica 3 es 
un muestreo sin reemplazo. En el contexto general de una muestra aleatoria simple, 
la técnica recibe el nombre de aleatoria. Cuando los objetos se extraen después de 
una selección equitativa. Por consiguiente, la técnica de muestreo dos recibe el 
nombre de muestreo aleatorio con reemplazo, y la técnica tres el de muestreo aleato- 
rio sin reemplazo. En la técnica dos, cada una de las observaciones X t , X 2 , ..., X„ 
es una variable aleatoria cuya distribución de probabilidad es idéntica a la de la po- 
blación, puesto que en cada extracción ésta tiene su forma original. En la técnica de 
muestreo tres, las observaciones X v X 2 ..., X n también son variables aleatorias 
cuyas distribuciones marginales son iguales a las de la población. Es decir, puede 
demostrarse que aun a pesar de que los objetos que se extraen de la población no 
sean reemplazados, la distribución no condicional de X¡ es idéntica a la de la pobla- 
ción, para toda / = 1, 2 n. 

La diferencia básica entre las dos técnicas es la noción de independencia. En la 
técnica dos, las observaciones X,, X 2 , ..., X„ constituyen un conjunto de variables 
aleatorias independientes e idénticamente distribuidas (IID) dado que, por el proce- 
so de reemplazo, ninguna observación se ve afectada por otra. En la técnica tres, a 
pesar de que las observaciones X x , X 2 , ..., X„ poseen la misma distribución, no son 
independientes. 

Recuérdese que, para la técnica uno, el muestreo se lleva a cabo con reemplazo a 
pesar de que la población no se encuentre constituida por objetos tangibles. De 
hecho, la técnica de muestreo dos es un caso especial de la primera, dado que la po- 
blación no se afecta después de cada extracción. Sin embargo, es interesante notar 
que puede preferirse el muestreo aleatorio sin reemplazo si el tamaño de la población 
es relativamente pequeño*. En estos casos, si el muestreo se lleva a cabo con re- 

* El lector recordará que esto es precisamente lo que constituye una distribución hipergeométrica tal como 
se discutió en la sección 4.4. 
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emplazo es muy probable que el mismo objeto sea seleccionado más de una vez. Es 
por esta razón que en las encuestas de preferencia el muestreo se hace sin reemplazo. 
Por otro lado, si el número de objetos en la población es muy grande, es irrelevante 
si el muestreo se lleva a cabo con reemplazo o sin éste. Conforme crece el tamaño de 
la población, el muestreo aleatorio sin reemplazo es, en todos los intentos y para 
cualquier propósito, igual al muestreo aleatorio con reemplazo. 

Al hablar de la inferencia estadística se supondrá la existencia de una muestra 
aleatoria, como la descrita por la técnica de muestreo 1, y que se define de manera 
formal de la siguiente manera: 



Definición 7.1 Si las variables aleatorias X v X 2 , ..., X n tienen la misma función 
(densidad) de probabilidad que la de la distribución de la población y su función 
(distribución) conjunta de probabilidad es igual al producto de las marginales, en- 
tonces X x , X 2 , ..., X„ forman un conjunto de n variables aleatorias independientes 
e idénticamente distribuidas (IID) que constituyen una muestra aleatoria de la po- 
blación. 

Cuando el objetivo es formular una inferencia estadística, debe hacerse un in- 
tento honesto para obtener una muestra aleatoria que porporcione la base teórica 
necesaria para la inferencia. Desde un punto de vista práctico, lo anterior no siempre 
es fácil. Por ejemplo, en muchas ocasiones es difícil decidir cuándo se están mante- 
niendo condiciones idénticas durante el proceso de reunir datos en experimentos 
científicos. Esto es especialmente cierto si los factores ambientales crean condicio- 
nes heterogéneas. Sin embargo, es responsabilidad del experimentador decidir cuán- 
do una muestra observada de datos es, en gran medida, aleatoria. 

Para ilustrar el proceso de muestreo en un experimento científico, supóngase 
que se tiene interés en la concentración de cierto contaminante en un depósito de 
agua. Se coloca una boya que contiene un instrumento para medir el nivel de con- 
centración en el sitio de interés. El instrumento registra el nivel de concentración 
cada n intervalos. De esta forma, las observaciones X x , X 7 , ..., X n constituyen una 
muestra del nivel de concentración en el sitio de interés. Antes de que el instrumento 
registre el nivel de concentración para el /-ésimo periodo, la observación X, es una 

variable aleatoria para / = 1,2 n. El valor registrado x t (el valor numérico 

correspondiente a la observación X) es una realización de la variable aleatoria. Al 

final de los n intervalos las mediciones .v,, .v : x„ que registra el instrumento 

son las realizaciones, o datos muéstrales, de las correspondientes variables aleatorias 

X { , X 2 X„. Sin embargo, es válido preguntarse si la anterior es veraderamente 

una muestra aleatoria. Nadie puede proporcionar una respuesta legítima sin tener 
información adicional. Por ejemplo, ¿está el investigador consciente de todos los su- 
cesos que durante el periodo de muestreo podría causar un cambio significativo en 
el nivel de concentración del contaminante? ¿Consideró el lapso de muestreo ade- 
cuado o existen algunas fluctuaciones temporales que deben ser consideradas? ¿Es 
probable, que el error en el instrumento sea mayor conforme transcurre el tiempo? 
Preguntas como las anteriores deben contestarse antes de dar un juicio definitivo 
sobre la aleatoriedad de la muestra. 
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En el contexto de la definición 7. 1 , la función (densidad) conjunta de probabili- 
dad de X t , X 2 , .., X„ es la función de verosimilitud de la muestra dada por 

n 

Ux-,0) = n /i*/;*). ( ? -D 

en donde x = {*,, x 2 , ..., x„} denota los datos muestreados^ Cuando las realizacio- 
nes x se conocen, L(x; 6) es una función del parámetro desconocido $. La utilidad 
de la función de verosimilitud para estimar parámetros se examinará en el capítulo 
ocho. 

Ejemplo 7.1 Se ilustrará el concepto de muestra aleatoria dado en la definición 7.1 
mediante lo siguiente: sea X x , X 2 , ■■■, X n una muestra aleatoria de n variables alea- 
torias IID de una población cuya distribución de probabilidad es exponencial con 
densidad 

f(x;9) = -exp(-jr/0), 0<.r<*. 

Cuando se observa X, y se registra su realización x r 

f(x,;0) = -exp(-x,/e), 0<x,<«>. 

Ahora se observa X 2 y se registra su realización x r Dado que X { y X 2 son estadística- 
mente independientes y tienen las mismas densidades marginales, 

f(xi\x t ) = f(x 2 ; 6) = - exp( - x 2 /6), < x 2 < oo . 

u 

La función de densidad conjunta de A', y X 2 es 

/(*„ x 2 ; 6) = f( Xl ; 0)f(x 2 ; 0) = ¿ exp[-(x, + x 2 )/9), 0< X¡ < oo, i = 1, 2. 

a 

Por lo tanto, se desprende que para una muestra aleatoria de tamaño n 

L{x u x 2 , ...,x n ;0) = — exp[-U, + x 2 + ■■■ + x n )/0], 

<-v, < », / = 1, 2 n. 



7.3 Distribuciones de muestreo de estadísticas 

En los comentarios introductorios del capítulo uno se mencionó de manera breve que 
las características muéstrales denominadas "estadísticas" se emplean para hacer infe- 
rencias con respecto a las características de la población, las que reciben el nombre 
de "parámetros". El objetivo de esta sección será el de examinar con detalle el papel 
que desempeñan las estadísticas en relación con la inferencia. En particular, se desa- 
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rrollará la noción de una distribución de muestreo de una estadística, que es uno de 
los conceptos más importantes en inferencia estadística. 

Para colocar a las estadísticas en una mejor perspectiva se debe definir y anali- 
zar, de manera formal, un parámetro de población. 

\ 
Definición 7.2 Un parámetro es una caracterización numérica de la distribución de la 

población de manera que describe, parcial o completamente, la función de densidad " 

de probabilidad de la característica de interés. Por ejemplo, cuando se especifica el 

valor del parámetro de escala exponencial d, se describe de manera completa la 

función de densidad de probabilidad 

x f(x;&) = {exp(-x/d). 

La oración "describe de manera completa" sugiere que una vez que se conoce el 
valor de 6 entonces puede formularse cualquier proposición probabilística de inte- 
rés. A manera de ilustración, si 9 = 2, entonces: 

P(X> 4) = \ i exp(-x/2)dx = 0.1353. 

2 J4 

Por otra parte, si se especifica un valor del parámetro de forma a, de la distribución 
gama, la función de densidad de probabilidad 

/(*; «< <» = -i- x"~ ' exp( -x/8) 

r(a)(r 

no se encuentra especificada de manera completa, ya que no se ha hecho ninguna 
mención con respecto al valor del parámetro de escala 0. 

La esencia de todo lo anterior es que, dado que los parámetros son prácticamen- 
te inherentes a todos los modelos de probabilidad, es imposible calcular las proba- 
bilidades deseadas sin un conocimiento del valor de éstos. Es por esta razón que la 
noción de una estadística y su distribución de muestreo es muy importante en inferen- 
cia estadística. Esto es, los parámetros o sus funciones se estiman con base en esta- 
dísticas que, a su vez, se obtienen a partir de la información contenida en una 
muestra aleatoria. 

Antes de dar la definición de una estadística, debe notarse que desde un punto de 
vista clásico (no bayesiano), un parámetro se considera como una constante fija 
cuyo valor se desconoce. Desde una perspectiva bayesiana un parámetro siempre es 
una variable aleatoria con algún tipo de distribución de probabilidad. Se considerará 
a los parámetros, principalmente desde el punto de vista clásico, aunque también se 
dará el punto de vista bayesiano, a fin de dar una perspectiva apropiada. 

Definición 7.3 Una estadística es cualquier función de las variables aleatorias que 
se observaron en la muestra de manera que esta función no contiene cantidades des- 
conocidas. 
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Considérese la muestra X ~ {X\- X-i- ■■■■> X»} Que consiste de n variables alea- 
torias IID con una función de densidad de probabilidad f{x\ 6) que depende de un 
parámetro desconocido 0. Supóngase que se definen funciones como 

UX) = (*, + X 2 + - + X„)/n, 

T 2 (X) = {X] + X¡ + - +X 2 n )/n, 

UX) = x t + x 2 , 

y así sucesivamente. Todas ellas son estadísticas porque se determinan de manera 
completa por las variables aleatorias que contiene la muestra. De manera general, 
denótese una estadística por T = u(X). Dado que T es una función de variables alea- 
torias, es en sí misma una variable aleatoria, y su valor específico / = u(x) puede 
determinarse cuando se conozcan las realizaciones x de X. Si se emplea una estadís- 
tica T para estimar un parámetro desconocido 0, entonces T recibe el nombre de 
estimador de 0, y el valor específico de t como un resultado de los datos muéstrales 
recibe el nombre estimación de d. Esto es, un estimador es una estadística que identi- 
fica al mecanismo funcional por medio del cual, una vez que las observaciones en la 
muestra se realizan, se obtiene una estimación. 

Una estadística es, sustancialmente, diferente de un parámetro. Un parámetro es 
una constante pero una estadística es una variable aleatoria. Además, un valor del 
parámetro descrito describe de manera completa un modelo de probabilidad (supo- 
niendo una distribución uniparamétrica); ningún valor de la estadística puede de- 
sempeñar tal papel si cada uno de éstos depende del valor de las observaciones de las 
muestras. Y dado que las muestras se toman en forma aleatoria, ninguna muestra es 
más válida que cualquier otra que se haya tomado con el mismo fin. 

Para ilustrar el concepto de una estadística se dará solución al siguiente proble- 
ma: supóngase que se tiene interés en la duración promedio de cierta clase de batería 
miniatura. Se asegura que el proceso de manufactura de ésta es el mismo y que se 
emplean materiales idénticos. Se decide seleccionar aleatoriamente cinco pilas diarias 
durante 20 días. Para cada muestra diaria, las cinco baterías se someten a una 
prueba de duración que consiste en registrar el tiempo de operación. La prueba ter- 
mina cuando todas dejan de funcionar. Como se supone que el proceso de fabrica- 
ción es el mismo durante el periodo de muestreo, este esquema proporciona 20 muestras 
aleatorias distintas, donde cada una contiene cinco variables aleatorias independientes y 
distribuidas de manera idéntica. Sea = {X tJ , X 2J , ..., X y } el conjunto de varia- 
bles aleatorias de layésima muestra para^ = 1, 2, ..., 20, y *_,- = {.v,,, a : , ,v 5/ } 

los correspondientes tiempos de duración observados. Considérese la estadística. 

T, = (X ti + X v + ■■■ + X,¡)/5 

como un estimador del tiempo de duración promedio de las baterías. Si se supone 
que los tiempos observados son los que aparecen en la tabla 7.1, entonces para la/- 
ésima muestra existe una realización /, para la estadística T¡. Es decir, cada muestra 
diaria proporciona una estimación de la duración promedio de las baterías. 
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Nótese que las estimaciones que aparecen en la tabla para la duración promedió 
tienen una variación que se encuentra entre 140.8 y 157.2 horas. De esta forma, exis- 
te una variabilidad inherente entre estas estimaciones. Además, para cualquier esta- 
dística se espera una variabilidad de muestra a muestra, dado que una estadística es 
una variable aleatoria. De hecho, para cada estadística existe lo que se conoce 
como su distribución de muestreo, la cual toma en cuenta la variabilidad inherente y 
proporciona los medios necesarios por medio de los cuales puede evaluarse la 
estadística. Se definirá la distribución de muestreo de una estadística con base en 
muestras aleatorias, de acuerdo con la definición 7.1. 

Definición 7.4 La distribución de muestreo de una estadística T es la distribución 
de probabilidad de Tque puede obtenerse como resultado de un número infinito de 
muestras aleatorias independientes, cada una de tamaño n, provenientes de la pobla- 
ción de interés. 

Dado que se supone que las muestras son aleatorias, la distribución de una esta- 
dística es un tipo de modelo de probabilidad conjunta para variables aleatorias inde- 
pendientes, en donde cada variable posee una función de densidad de probabilidad 
igual a la de las demás. De manera general, la distribución de muestreo de una esta- 
dística no tiene la misma forma que la función de densidad de probabilidad en la dis- 
tribución de la población. 

Para ilustrar lo anterior, considérese la distribución de muestreo de una estadísti- 
ca para los 20 promedios muéstrales dados en la tabla 7.1. Mediante el empleo de los 
métodos del capítulo uno, se agrupan las 20 realizaciones en cinco clases y se ob- 
tienen las frecuencias relativas que aparecen en la tabla 7.2. 



TABLA 7.1 Tiempos de duración (en horas) observados para una muestra aleatoria de bate- 
rías 



Número de muest 


ra 1 


2 


3 


4 


5 


6 


7 


8 


9 


10 




163 


159 


150 


136 


136 


138 


155 


158 


135 


166 




132 


144 


125 


157 


146 


145 


145 


150 


144 


142 




154 


139 


139 


168 


158 


150 


151 


153 


148 


156 




152 


14Ó 


134 


158 


154 


138 


154 


151 


150 


154 




148 


144 


156 


167 


156 


158 


141 


138 


148 


160 


Promedio 






















de la muestra 


149.8 


146.4 


140.8 


157.2 


150.0 


145.8 


149.2 


150.0 


145.0 


155.6 


Número de muestra 1 1 


12 


13 


14 


15 


16 


17 


18 


19 


20 




150 


154 


148 


149 


150 


147 


158 


164 


153 


135 




152 


150 


166 


158 


138 


151 


147 


136 


160 


150 




163 


141 


148 


139 


153 


161 


141 


143 


156 


164 




161 


159 


149 


146 


151 


142 


130 


137 


142 


152 




139 


153 


154 


136 


161 


149 


147 


152 


156 


144 


Promedio s 






















de la muestra 


153.0 


151.4 


153.0 


145.6 


150.6 


150.0 


144.6 


146.4 


153.4 


149.0 
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TABLA 7.2 Grupos y frecuencias relativas para las 20 medias muéstrales 



Límites de clase 



Frecuencia 
de ¡a clase 



Frecuencia relativa 



140.6-144.0 
144.1-147.5 
147.6-151.0 
151.1-154.5 
154.6-158.0 

Total 



1 
6 

7 
4 

2 

20 



0.05 
0.30 
0.35 
0.20 
0.10 

1.00 



A partir de estas frecuencias relativas es evidente que la más alta concentración 
de tiempos de duración promedio se encuentra entre 147.6 y 15 1 horao, e.. donde los 
tiempos de duración promedio por debajo de 1^ i horas o por encima de 154.6 tienen 
una probabilidad muy pequeña. La distribución de muestreo de una estadística hace 
posible este tipo de análisis de probabilidad, esencial para valorar el riesgo inherente 
cuando se formulan inferencias. 

Posteriormente se enunciarán algunos teoremas básicos que permiten obtener las 
distribuciones muéstrales de estadísticas importantes como la media X y la varianza 
S 2 muestral. Se usará de manera frecuente la función generadora de momentos, dado 
que ésta determina unívocamente una distribución de probabilidad. 

Teorema 7.1 Sea X, , X 2 , ..., X„ un conjunto de n variables aleatorias indepen- 
dientes cada una con funciones generadoras de momentos m x¡ (t), m X2 (t), ..-., m Xn (t). 
Si 

Y = a,Z, + a 2 X 2 + ■■■ + a„X n , 
en donde a,, a 2 , ..., a„ son constantes, entonces: 

m Y (t) = m Xl (a¡t)m x Xa 2 t) ■■■ m Xn (a,,t). 

Demostración: Mediante el empleo de la definición y la hipótesis de independen- 
cia, se tiene 

m r (t) = EfexpMa.A', + a 2 X 2 + ■■■ + a„X„)]} 

= EiexpitüiXt) exp(ta 2 X 2 ) ■■■ exp(ta„XJ] 

= E[txp{ta,X x )}EWxp(ta 2 X 2 )] - £[exp(/a„*„)] 

= m Xt (a,t)m x ,(a 7 t) -•• m Xn (a,,t). 

De esta forma, la función generadora de momentos de una combinación lineal de n 
variables aleatorias independientes es el producto de las correspondientes funciones 
generadoras de momentos con argumentos iguales a las constantes de tiempo /. 
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Teorema 7.2 Sea X¡, X 2 , ..., X n un conjunto de variables aleatorias independien- 
tes normalmente distribuidas con medias E(X¡) = /j.¡ y varianzas Var(X¡) = a ] 
para / = 1, 2, ..., n. Si j i;;r i; 

Y - a¡X t + a 2 X 2 + -v + a„X n , 

.. . \ ,. ., 

en donde a t , a 2 , ..., a„ son constantes, entonces y es una variable aleatoria con 

distribución normal y media 

E(Y) = a,^, + a 2 (i, 2 + — + a„pi„ 
y con varianza 

VaiíY) = a]cr] + a\a\ + ••• + aW n . 

Demostración: Dado que X¡ se encuentra normalmente distribuida, su función ge- 
neradora de momentos es 

m x ,(t) = exp[/i,/ + (cr 2 t 2 )/2]. 

De acuerdo con el teorema 7.1, la función generadora de momentos de yes 

m Y (t) = m x ,{a¿)m Xl (a 2 t) ••• m x Sa„t) 

*= exp[/u,íM + {a]a\t 2 )/2} -•• exp[/u,,a n í + {a 2 n a 2 „t 2 )/2} 



= exp 



'¿^+(< 2 ¿^)/2 



Por lo tanto, Y se encuentra normalmente distribuida con media S" = , a,/L¿, y vaii&n- 
za2?_,fl?(r?. 

Del teorema 7.2 se desprende que si a¡ = 1 para í = 1, 2, ... /í, entonces la 
suma de variables aleatorias independientes normalmente distribuidas también 
posee una distribución normal con media y varianza igual a la suma de las medias 
y las varianzas de cada una de las variables aleatorias. La mayor parte de las veces 
el resultado anterior se conoce como la propiedad aditiva de la distribución nor- 
mal. Debe notarse que la hipótesis de normalidad no es necesaria para obtener las 
fórmulas de la media y la varianza de y en el teorema 7.2. De hecho, con base en el 
teorema 6. 1 , si X,, X 2 , ..., X„ es un conjunto de n variables aleatorias IID con me- 
dias E{X¡) = (jl¡ y varianzas Var(X¡) = a], i = 1, 2, .... n, entonces para 
Y = a i X i + a 2 X 2 + ••• + a„X„, 

n 

E(Y) = 2'i.H, 
y (7-2) 

Var(Y) = j, afá. 



224 Muestras aleatorias y distribuciones de muestreo 

I 
en donde, de nuevo, a, , a 2 , ..., a„ son constantes. J| 

Del teorema 7.2 surgen algunas aplicaciones interesantes. La siguiente constituye 

un ejemplo típico. 

Ejemplo 7.2 Supóngase que para un árbol de levas y un cojinete, el diámetro exter- 
no del primero A", y el diámetro interno del segundo A" 2 son variables aleatorias inde- 
pendientes con una distribución normal, con medias £(A",) = 3.25 cm, E(X 2 ) = 3.3 
cm y desvaciones estándar d.e.(X,) = 0.005 cm y d.e.(X 2 ) = 0.006 cm, respectiva- 
mente. El interés recae en la diferencia entre X 2 y A", , que es el espacio que existe 
entre el diámetro interno del cojinete y el diámetro externo del árbol de levas. El es- 
pacio se representa por Y t donde Y = X 2 - A', . Si al armarse una máquina existe un 
apareamiento aleatorio entre los árboles de levas y los cojinetes, debe obtenerse el 
valor del espacio que existe entre éstos y om , de manera tal que la probabilidad de 
que Y tenga un valor menor que éste sea de 0.004. 

Dado que X, y X 2 son variables aleatorias independientes, se aplica el teorema 
7.2 con a, = - 1 y a 2 = 1. De esta forma 

E(Y) = (l)£(A%) + (-!)£(*,) = 0.05, 



d.e.(Y) = V(D 2 (0.006) : + ( - 1 ) 2 (0.005) 2 = 0.00781. 
Esto es; Y - M0.05, 0.00781). Entonces 

PiY<y .oo*) = 0-004 

o 

P[Z < (y nMH - 0.05)/0.0078l] = 0.004, 

pero 

P[Z< -2.65] = 0.004; 

así pues 

í.vo.004 - 0.05)/0.00781 = -2.65, 

y Vo.txvt. De acuerdo con lo anterior se necesita un espacio no menor de 0.0293 cm 
para las condiciones dadas. 

7.4 La distribución de muestreo de X 

Una de las estadísticas más importantes es la media de un conjunto de variables alea- 
torias independientes e idénticamente distribuidas. Esta estadística tiene un papel 
muy impórtente en problemas de toma de decisiones para medias poblacionales des- 
conocidas. Sea A'|. X 2 X„ una muestra aleatoria que consiste de n variables 

aleatorias IID tales que E(X,) = ¡u y Var(X¡) = a 1 para toda ; = 1,2 /;. 

Entonces la estadística 

X = (A, - A\ + ••• + X„)/n (7.3) 
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se define como la media de las n variables aleatorias IID o, sencillamente, me- 
dia muestral. Nótese que una vez que se conocen las Realizaciones jc, , x 2 x n de 

X,, X 2 X„, respectivamente, la realización x de X se obtiene promediando los 

datos muéstrales. Si en (7.2) a¡ = \/n, i = 1,2 n entonces el valor esperado y 

la varianza de X son 

_ r 

E(X) = 2-M = «(/*/«) = /* (7-4) 



_ " i 
Var{X) = 2 -o" 2 = "(cr 2 //! 2 ) = tr 2 /". (7.5) 

., , •= i " 

respectivamente, en don^e /j y o -2 son la media y la varianza de la distribución de la 
población a partir de la cual se obtuvo la muestra. Con respecto a este resultado, lo 
importante es recordar que es válido sin importar la distribución de probabilidad de 
la población de interés siempre y cuando la varianza tenga un valor finito. A partir 
de (7.4), la desviación estándar de X es 

d.e. (X) = <j/\JV, (7.6) 

la cual, en algunas ocasiones, recibe el nombre de error estándar de la media. 

Nótese que conforme el tamaño de la muestra crece, la desviación estándar, y de 
esta forma la variabilidad, de X disminuye. En otras palabras, si el tamaño de la 
muestra crece, la precisión de la media muestral para estimar la media poblacional 
aumenta. Por ejemplo, si se extrae una muestra aleatoria de n = 25, X deberá tener 
una precisión de a/25 = 5 veces más de estimar la media poblacional que la que 
tendría una sola observación. Lo anterior es una propiedad muy ventajosa de la es- 
tadística X dado que asegura que para una muestra relativamente grande, se espera 
que la realización de X se encuentre muy cercana a la media poblacional fi. Como 
ilustración adicional, supóngase que se calcula la desviación estándar de X para dis- 
tintos valores de n con a = 10 y se grafican los puntos resultantes, como se indica 
en la figura 7.1 . Por la naturaleza de 7.6, la desviación estándar de X sufre una dis- 
minución sustancial en su valor conforme n toma valores cada vez más grandes, 
pero si n es mayor de 30 o 40 este comportamiento cesa. Por lo tanto, en esencia, un 
tamaño grande de muestra no resulta razonable en cuanto al costo, si se hacen infe- 
rencias con respecto a (¿ con base en X. 

A continuación se enuncia y demuestra un teorema con respecto a la distribución 
de muestreo de X si la muestra se encuentra constituida por n variables aleatorias in- 
dependientes normalmente distribuidas. 



Teorema 7.3 Sea X u X 2 , .... X„ una muestra aleatoria que consiste de n va- 
riables aleatorias independientes normalmente distribuidas con medias E(X¡) = p- 

y varianzas Var(X¡) = a 2 , i = 1, 2 n. Entonces la distribución de la media 

muestral X es normal con media ¡x y varianza a 2 /n. 
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FIGURA 7.1 Comportamiento típico de la desviación estándar de X como función del ta- 
maño de la muestra 



Demostración: Este teorema es un corolario del teorema 7.2. Esto es, sea a¡ = \/n\ 
dado que las medias y las_varianzas son iguales, respectivamente, la función gene- 
radora de momentos de X es: 



mX(t) = exp 



'2V+ ' 2 2 



L í=i 



1 



= c\p[fit + (/V)/2/i], 

que es la función generadora de momentos de una variable aleatoria normalmente 
distribuida con media /x y varianza <r 2 /n. De esta forma, la función de densidad de 
probabilidad de X cuando se muestrea una población cuya distribución es normal, 
está dada por 



f(x\ fi, tr/V") = 



Va 



exp 



ira 



n(x - fxf 
2cr 2 



=C < X < x . 



(7.7) 



Ejemplo 7.3 Se tiene una máquina de llenado para vaciar 500 gr de cereal en una caja 
de cartón. Supóngase que la cantidad de cereal que se coloca en cada caja es una 
variable aleatoria normalmente distribuida con media 500 gr y desviación estándar 
igual a 20 gr. Para verificar que el peso promedio de cada caja se mantiene en 500 gr 
se toma una muestra aleatoria de 25 de éstas en forma periódica y se pesa p' contení- 
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do de cada caja. El gerente de la planta ha decidido detener el proceso y encontrar la 
falla cada vez que el valor promedio de la muestra sea mayor de 510 gr o menor de 
490 gr. Obtener la probabilidad de detener el proceso. >■-• * * 

Sean X X ,X 2 , ..., X 2 ¡ variables aleatorias independientes normalmente distribui- 
das, las cuales representan la cantidad de cereal contenido en las cajas de una mues- 
tra aleatoria dada. Por hipótesis A", ~ W(500, 20), / = 1, 2, ..., 25. Por el teo- 
rema 7.3, el promedio muestral A" también se_encuentra normalmente distribuido 
con media 500 y desviación estándar 20/\/25 = 4. La probabilidad deseada es 
igual a uno menos la probabilidad de que X se encuentre entre 490 y 510 gr; de esta 
forma 

/^Detención del proceso) = 1 - P(490 < X < 510) 

„/490 - 500 „ 510 - 500 
= i _ p\ <Z< : — 



= 1 - P(-2.5<Z<2.5) 
= 0.0124. 

Ejemplo 7.4 Demostrar que si X¡, X 2 , ..., X„ son n variables aleatorias indepen- 
dientes exponencialmente distribuidas con función de densidad de probabilidad 

f(x;6) = -exp(-jr/0) x > 0, 

u 

entre X tiene una distribución gama. 

Recuérdese que la función generadora de momentos de una variable aleatoria ex- 
ponencialmente distribuida es (1 - 6t)~ l . De esta forma, para cada X¡ de la 
muestra, 

m Xi (t) = (l-6t)-'. 

Del teorema 7.1 con a, = l/n, i = 1, 2, ..., n, se desprende que la función gene- 
radora de momentos de la media muestral X es 

mxU) = m Xl (t/n)m X2 (t/n) ■■■ m Xn {fJn) 

= [1 - («//«)]" '[1 - (0///!)]-' - [1 - (0t/n)]-> 
= [1 - (8t/n)]-\ 

Pero la expresión anterior es la función generadora de momentos de una distribu- 
ción gama con parámetro de forma n y parámetro de escala 6/n. De acuerdo con lo 
anterior, cuando se muestrea una población^uya distribución de probabilidad es ex- 
ponencial, la densidad de probabilidad de X está dada por 

' n" 

f(T, n. 6/n) = — -— .v"" ' exp( -nx/6), x > 0. (7-8) 
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Nótese que si en las expresiones (5.47) y (5.48) se reemplaza a con n y con d/n 
se obtiene 

E(X) = n- = 6 (7.9) 

n 



— 6 

Var(X) = n— = 6r/n, (7.10) 

n~ 

como era de esperarse ya que d y d 2 son la media y la varianza, respectivamente, de 
una variable aleatoria con distribución exponencial. 

De la sección 5.5, recuérdese que si el parámetro de forma de una distribución 
gama tiene un valor grande, entonces los valores de probabilidad para una variable 
aleatoria gama pueden aproximarse, en forma adecuada, por una distribución nor- 
mal. Dado que r m , muestrear una distribución exponencial con parámetro 8 X tiene 
una distribución gama con media 0, y desviación estándar 0/y/n » entonces, para n 
grande 

Z = ^-f (7.11) 

e/y/n 

es, en forma aproximada, N(0, 1). 

Ejemplo 7.5 Con base en los experimentos, la duración de un componente eléctrico 
se encuentra exponencialmente distribuida con una vida media de 100 horas. Si del 
proceso de producción se toma una muestra aleatoria de 16 componentes, ¿cuál es 
la probabilidad de que la vida media muestral sea mayor de 120 horas? 

De (7.9) y (7_J0), la media de X en 100 horas y la desviación estándar tiene un 
valor de 100/\/l6 = 25 horas. Si se supone que el valor del parámetro de forma n 
= 16 es suficientemente grande para emplear la aproximación dada por (7.11), se 
tiene 

P(X> 120) = P{z> m ~ 5 m ) = 0.2119. 

Por comparación, la probabilidad de que X > 1 20 pueda calcularse mediante el 
empleo directo de la función gama incompleta l(ti, p), se encuentra definida por 
(5.55); en este caso 11 = (16)(120)/100\/Í6 y P = 16 - 1 . De esta forma: 

P(X> 120) = 1 - /(4.8, 15) = 0.2021. 

De manera muy breve se estableció ya que la distribución de muestreo de X es 
normal cuando éste se lleva a cabo a partir de una población que tiene una distribu- 
ción, ya sea normal o exponencial. ¿Qué ocurre cuado no puede especificarse la 
distribución de probabilidad de la población a partir de la cual se obtiene la muestra? 
Es decir, ¿cuál es la distribución de muestreo (aproximada) de A", sin tener en cuenta 



S' 
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la de las variables aleatorias de la muestra? Para obtener una idea con respecto a la 
distribución de muestreo de X cuando el modelo de probabilidad de la población de 
interés no se especifica, considérese un estudio de simulación en el que los valores 
aleatorios se generan mediante los procedimientos dados en la sección 5.9. 

Supóngase que se generan 50 muestras, cada una de tamaño n = 10, a partir de 
una distribución N de Poisson con parámetro X = 2. Para cada muestra se calcula la 
media muestral, produciéndose así 50 realizaciones de la estadística X. Estos valores 
se agrupan y se determinan sus frecuencias relativas. Se repite el proceso pero con 
n = 40 como tamaño de la muestra en lugar 10. Se repite el proceso pero en lugar de 
generar valores aleatorios a partir de una distribución de Poisson, se generan a partir 
de una distribución uniforme sobre el intervalo (0,1). En la figura 7.2 se ilustra la 
distribución de frecuencia relativa para cada uno de los cuatro casos. Nótese que 
cuando n = 10, no existe un patrón típico en la distribución de X. Sin embargo, cuan- 
do n = 40 la distribución de X definitivamente toma una forma de campana y de esta 
forma se procede a una distribución normal, tanto para el modelo de Poisson como 
para el uniforme. 
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FIGURA 7.2 Distribuciones de frecuencia relativa de A' cuando el muestreo se lleva a cabo 
sobre una distribución de Poisson o una uniforme para n = 10 y n = 40 
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Con base en este limitado estudio de simulación, parece ser que para un valor 
grande de n, la distribución de X es aproximadamente normal. De hecho, no impor- 
ta el tipo de modelo de probabilidad a partir del cual se obtenga la muestra; mientras 
la media y la variánza existan, la distribución de muestreo de X se encontrará apro- 
ximada por^ N( fi, a/y/ñ) para valores grandes de n. 

Lo anterior constituye uno de los más importantes teoremas en inferencia esta- 
dística, y se conoce como teorema central del límite. 

Teorema 7.4 Sean X X ,X 2 , .... X„ n variables aleatorias IID con una distribución 
de probabilidad no especificada y que tienen una media fi y una variánza a 2 finita. 
El promedio muestral X = (X t + X 2 + ■•• + X n )/n tiene una distribución con 
media y. y variánza cr 2 /n que tiende hacia una distribución normal conforme n tien- 
de a oo. En otras palabras, la variable aleatoria (X - n)/{a/\fn) tiene como límite 
una distribución normal estándar. (En un apéndice al final de este capítulo se pro- 
porciona un esbozo de la demostración áz este teorema.) 

La esencia del teorema central del límite recae en el hecho de que para n grande, 
la distribución de (X — n)/(o-/\/n) es, en forma aproximada, normal con media 
cero y desviación estándar uno sin importar cuál sea el modelo de probabilidad a 
partir del que se obtuvo la muestra. Debe notarse que si el modelo de probabilidad 
de la población es semejante a una distribución normal (esto es, si es simétrico y existe 
una concentración relativamente alta alrededor del punto de simetría), la aproxima- 
ción normal será buena aun para pequeñas muestras. Por otro lado, si el modelo de 
la población tiene muy poco parecido a una distribución normal (por ejemplo, existe 
una alta asimetría), la aproximación normal sólo sera adecuada para valores rela- 
tivamente grandes de n. En muchos casos, puede concluirse de forma segura, que 
la aproximación será buena mientras n > 30. Por lo tanto, la variable alea- 
toria 

X — LL 

Z = -—£ (7.12) 

0-/V" 

se emplea para formular inferencias acerca de /x cuando se conoce el valor de la va- 
riánza poblacional o 2 . La variable Z es 7V(0, 1) cuando el muestreo se lleva a cabo 
sobre una población que tiene una distribución normal y es, en forma aproximada, 
N(0, 1) para cualquier otro modelo cuando n es grande. 

Ejemplo 7.6 Supóngase que el número de barriles de petróleo crudo que produce 
un pozo diariamente es una variable aleatoria con una distribución no especificada. 
Si se observa la producción en 64 días, seleccionados en forma aleatoria, y si se sabe 
que la desviación estándar del número de barriles por día es a = 16, determínese la 
probabilidad de que la media muestral se encuentre a no más de cuatro barriles del 
verdadero valor de la producción por día. 

Puesto que n es lo suficientemente grande, la distribución de X es,_en forma 
aproximada, normal con media /a y desviación estándar <t/V« = !6/\/64 = 2. En 



7.5 La distribución de muestreo de S? 231 

forma equivalente, la distribución de Z = (X - /¿)/2 es, aproximadamente, 
N(0, 1). De acuerdo con lo anterior, la probabilidad deseada es: 

P(¡X - /*l<4) = P(fi -4<X<n + 4) ■/'■[<; ;U 

\ ' = P[(H - 4 - M )/2 < Z < (m + 4 - ¿0/2] 

■-. '" . : ' = px-2<z<% ' v ' , ' ru ;-" 

= 0.9544. 



7.5 La distribución de muestreo de S 2 

Otra estadística importante empleada para forr"ul? r inferencias con respecto a las 
varianzas de la población es la varianza muestral denotada por S 2 . Recuérdese que 
S 2 es una medida de la variabilidad e indica la dispersión o extensión entre las obser- 
vaciones. Dado que la dispersión es una consideración tan importante como la ten- 
dencia central, el significado de S 2 para formular inferencias de a 2 es comparable 
con el que tiene A" para formular inferencias con respecto a ¡jl. 

En esta sección se desarrollará la distribución de muestreo de S 2 cuando éste se 
lleva a cabo sobre una población que tiene una distribución normal. Para comenzar, 
es necesario suponer que /¿ es conocida y o- 2 no. Así, S 2 se encuentra definida por 

S 2 = ¿ (X, - tf/n, (7.13) 

en donde X lt X 2 , ■-., X„ constituye una muestra aleatoria de una distribución nor- 
mal con media /i y varianza cr 2 desconocida. Para determinar una distribución de 
muestreo que permita hacer inferencias sobre cr 2 con base en S 2 definida por (7.13), 
se enuncia y demuestra el siguiente teorema. 

Teorema 7.5 Sean A",, X 2 , ..., X„ una muestra aleatoria de una distribución nor- 
mal con media /* y varianza o 2 . La distribución de la variable aleatoria. 

n 

¡= i 
es del tipo chi-cuadrada con n grados de libertad. 

Demostración: Dado que X¡ ~ N{fi, a), i = 1, 2, ..., n, Z¡ = (X, - ii)/& 
define n variables aleatorias normales estándar independientes, se tiene: 



Y=2¿Í- 
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Del teorema 7.1, 

m Y {t) = m^Om^t) — m z i(t) 

= (1 - 2/)- ,/2 (l - 2tY m -(I - 2t)- y2 , 

dado que el cuadrado de tina variable aleatoria normal estándar tiene una distribu- 
ción chi-cuadrada con un grado de libertad (véase el ejemplo 5.14). De esta forma se 
tiene 

m Y {t) = (1 - 2ty nn , 

que es la función generadora de momentos de una distribución chi-cuadrada con n 
grados de libertad. De acuerdo con lo anterior, Y ~ X 2 „. 

Ejemplo 7. 7 Considérese una medición física proporcionada por un instrumento 
de precisión, en donde el interés recae en la variabilidad de la lectura. Supóngase" 
que, con base en la experiencia, la medición es una variable aleatoria normalmente 
distribuida con media 10 y desviación estándar igual a 0.1 unidades. Si se toma una 
muestra aleatoria procedente del proceso de manufactura de los instrumentos de ta- 
maño 25, ¿cuál es la probabilidad de que el valor de la varianza muestral sea mayor 
de 0.014 unidades cuadradas? 

Con base en el teorema 7.5, la probabilidad de que S 2 > 0.014, cuando el 
muestreo se lleva a cabo sobre MÍO, 0.1) con n = 25 es igual a la de 

P(Y>ns 2 /a- 2 ) = P|T>(25)(0.OI4)/0.OI] 
= P(Y>35) 
= 1 - P(Y *s35) 

en donde Y ~ X25 . De la tabla E del apéndice, el valor deP(Y =s 35) es, aproxima- 
damente, 0.9; de esta forma 

/>(K>35) = 0.1, 

y la probabilidad de que el valor de la varianza muestral sea mayor de 0.014 unida- 
des cuadradas, es alrededor de 0. 1 para las condiciones dadas. 

Desde un punto de vista práctico, la varianza muestra tal como se encuentra defi- 
nida por (7.13) tiene poco uso, ya que es muy raro que se conozca el valor de la media 
poblacional /*. De acuerdo con lo anterior, si se muestra una distribución normal con 
media \l y varianza o- 1 , la varianza muestral se define por 

n 

S 2 = £(*, -X) 2 /(n - I). (7.14) 

í— I 

En el capítulo ocho se verá por qué se emplea el divisor (n - 1). El reemplazo de la 
media desconocida /t por la muestral X da origen a la presencia de otra estadística en 
la definición de S~. De esta manera, para determinar la distribución de muestreo de 



I 
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S 2 , como se encuentra definida por (7.14), y con base en una muestra aleatoria pro- 
veniente de una distribución normal, debe tomarse en cuenta el promedio de la mues- 
tra A. Como resultado se tiene que la distribución de muestreo de (n — 1 )S 2 /a 2 
es también una distribución chi-cuadrada con n — 1 grados de libertad. A fin de 
probar lo anterior, primero se demostrará un teorema muy útil que involucra la 
suma de dos variables aleatorias independientes chi-cuadrada y entonces se escri- 
be la expresión (7.14) en una forma equivalente, con objeto de aprovechar este teo- 
rema. 

Teorema 7.6 Si A", y A 2 son dos variables aleatorias independientes y cada una 
tiene una distribución chi-cuadrada con v i y v 2 grados de libertad respectivamen- 
te, entonces: 

" " Y = A, +' X 2 
también tiene una distribución chi-cuadrada con c, + v 2 grados de libertad. 

Demostración: del teorema 7. 1 , la función generadora de momentos de Y es 

m Y (t) = m Xl (t)m x it) 

= (1 - 2/)-"' /2 (l - 2tr" 2/1 
= (1 - 2/)-"" + " 3,/2 , 

que es la función generadora de momentos de una variable aleatoria chi-cuadrada 
con 'j>, -.+ v 2 grados de libertad. 

Ahora se deducirá la distribución de muestreo de (n - l)S 2 /cr 2 ; de (7.14) se 
tiene que 

n 

(n - \)S 2 = 2 (A, -X) 1 ; 
pero 

n n 

2 (A",- - A) 2 = 2 (A, - ¡x - X + M ) 2 

í = 1 í = I 

n 

= 2 [(A,- - M ) - (A - ,x)f 

i= I 
n 

= 2 KA, - m) 2 - 2(A, - M )(A - ¡i) + (X - /i) 2 ] 

/= I 
n n 

= 2 (A, - ij.) 2 - 2(A - M ).2 (A, - /*) + n(X - ix) 2 

n 

=r £ (X; - ix? - 2(X - ix)n(X - /i) + n(X - i¿) 2 

¡=\ 
n 

- 2 (A,- - ix) 2 - n(X - n) 2 . 



n 
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De esta forma 



(n - 1)5 2 4 n(X - M ) 2 = 2 (*/ ~ M) 2 . 



Al dividir ambos miembros de la expresión anterior por la varianza poblacional <r 
se tiene 

(n - \)S 2 nQC-'tf ir^VC-tif 
a 2 + o- 2 ~ <r 2 



(»- l)S 2 , IX- mV Sr-.W-M)' 



+ 



3 • (7.15) 



o" \a/y/nj o" 

Del teorema 7.15, se desprende que 2¡-' = i (A 1 , - n) 2 /<r 2 tiene una distribu- 
ción chi-cuadrada con n grados de libertad De manera similar, [(X - ii)/a-/\Jn] 2 
también posee una distribución chi-cuadrada con un grado de libertad, dado 
que (X - fí)/(oi/yfñ) es /V(0, 1). Por lo tanto, si se supone que (n - \)S 2 /a 2 y 
[(X - ^/a/y/nfson variables aleatorias independientes, entonces, por el teorema 
7,6, cuando se muestrea una población cuya distribución es normal con media y va- 
rianza desconocida, la distribución de (n - l)S 2 /er, es chi-cuadrada con n — gra- 
dos de libertad. Para demostrar la independencia se invita al lector a que consulte la 
referencia [3]. La función de densidad de probabilidad de Y = (n - l)S 2 /o- 2 se 
desprende de (5.58) y está dada por: 



f(y,n - 1) = { 



1 ■,y lí "- [)m - i exp(-y/2) y>0, 



IK* - l)/2]2 ( "-»^ ^ "*' J "' ( 7.16) 

k para cualquier otro valor. 



Nótese que, dado que Y ~ X 2 _,, E(Y) = n - 1 y Var(Y) = 2(n - 1). 
Además, ya que Y = (n - \)S 2 /<t 2 , S 2 = <r 2 Y/(n - 1). Por lo tanto 

2 

E(S 2 ) = E[cr 2 Y/(n - 1)] = — 2— £(K) = a\ (7.17) 

(n - I) 



4 -> 4 

Var(S 2 ) = Kar[o- 2 K/(« - 1)] = -? Var(Y) = -. (7.18) 

(n - I) - /i - 1 



7.6 La distribución í de Student 

Se recordará de la sección 7.5 que cuando se muestrea una distribución normal con 
desviación estándar conocida cr, la distribución de Z = (X - /t)/(<r/\//z) es N(0, 



,, .7.6 La distribución t de Student 235 

1). Desde un punto d& vista práctico, la necesidad de conocer a impide formular in- 
ferencias con respecto a /i debido a que generalmente no se conoce el valor de la 
desviación estándar des Ja población. Dada la> disponibilidad de una muestra aleato- 
ria, el camino lógico que se sigue en éste casó esieeñipiazar a- con una estimación s, 
que es el valor de la desviación estándar muestral S. Desafortunadamente, cuando lo 
anterior se lleva a cabo, la distribución dei {X - /¿JAS/ V") no es N(0, 1), aun 
cuando la muestra provenga de una distribución normal. Sin embargo, es posible de- 
terminar la distribución de muestreo exacta de (X - fi)/(S/y/n) cuando se 
muestrea N(fi, a), con n y o- 2 desconocidos. Para Analizar esta sección se exami- 
narán los aspectos teóricos de lo que se conoce como la distribución t de Student.* 
Supóngase que se realiza un experimento en que se observan dos variables aleato- 
rias Xy Z;X tiene una distribución chi-cuadrada con v grados de libertad y Z una 
distribución normal con media cero y desviación estándar uno. Sea T otra variable 
aleatoria que es función de X y Z, de manera tal que 

(7.19) 



y/X/v 

Es decir, Tse define como el cociente entre una variable aleatoria normal estándar y 
la raíz cuadrada de una variable aleatoria chi-cuadrada dividida por sus grados de li- 
bertad. El conjunto de todos los posibles valores de la variable aleatoria Tes el inter- 
valo (-oo, °°) puesto que los valores de Z se encuentran en éste y los valores de A' 
son positivos. El valor 



t = 



y/x/v 

recibe el nombre de valor de la variable aleatoria de / de Student. Lo anterior lleva al 
siguiente teorema. 

Teorema 7.7 Sea Z una variable aleatoria normal estándar y X una variable aleato- 
ria chi-cuadrada con v grados de libertad. Si Z y X son independientes, entonces la 
variable aleatoria 

Z 



T = 



y/X/v 



tiene una distribución /de Student con v grados de libertad y una función de densi- 
dad de probabilidad dada por 

f(t- V ) = r[( -l_ + 1)/2] [1 + (t 2 /v)}-^ + »'\ -oo< í <oc ) „>o. (7.20) 

yjnv I>/2) 

La deducción de la función de densidad / de Student aparece en un apéndice al final 
de este capítulo. 

De (7.20) se observa que el parámetro de la distribución / es v, que, al igual que 
para la distribución chi-cuadrada, recibe el nombre de grados de libertad. Para cual- 

* W. Gosset, desarrolló en 1908 la distribución t, quien publicó su trabajo bajo el seudónimo de "Student . 
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quier v > O, la distribución / es simétrica con respecto al origen y la función de 
densidad tiene su valor máximo cuando f = 0. De la figura 7.3 es evidente que la 
forma de la función de densidad í de Student es muy similar a la de la densidad nor- 
mal estándar y con los extremos de la distribución/ menos pronunciados que los de 
la distribución normal. De hecho, conforme se tiene un número mayor de grados 
de libertad, la distribución / de Student tiende hacia la normal estándar. 
Puede demostrarse que el valor esperado de Tes 



E{T) = v>\, 
y la varianza está dada por 

Var(T) = v¡{v -2) v > 2. 



(7,21) 



(7.22) 



En la tabla F del apéndice se encuentran los valores cuantiles /, _„ „ tales que: 

P(T^t^„.„) = I /(/; v)dt = 1 - a, 0=£a=sl. (7.23) 

para los distintos valores de v y de las proporciones acumulativas seleccionadas 
1 - a. Por ejemplo, si v = 15. 

P(T^ /„.9o..5) = ñT* 1.341) = 0.90, 
W*£ fo.M.,j) = PXT*z 1.753) = 0.95, 
P(T ^ t 099 , l5 ) = P(T^ 2.602) = 0.99. 

Dado que la distribución / es simétrica con respecto al cero, para a > 0.5 los 
valores cuantiles /i _ a .„ serán negativos pero sus magnitudes serán las mismas que las 



Densidad normal estándar 




Densidad / de Student 
(^ =3) 



FIGURA 7.3 Comparación entre las densidades normal estándar y / de Student 
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de los correspondientes valores que se encuentran en el lado derecho. De esta forma, 
para v = 15, .¡ -<.-. 

p(t^ to.io.is) =. w* -1.341) = o.io, J : ;;¿ t; , ■': 

s P(T* /0.05..5) = AT"* -1-753) = 0.05, ¡ - : 

PiT* /ooi.is) = AT"* -2.602) = 0.01. 

A fin de ilustrar la similitud que existe entre la distribución / de Student y la nor- 
mal estándar para valores relativamente grandes de v, en la tabla 7.3 se encuentra 
una comparación entre los valores cuantiles t y los correspondientes valores norma- 
les estándar para valores crecientes de v. Para a = 0.1 o 0.05, la concordancia se en- 
cuentra en aproximadamente O>05 unidades, aun para valores tan bajos de v como 
30. De hecho, muchos autores sugieren que, desde un punto de vista práctico, es 
muy poca la ganancia que se tiene al emplear la distribución t de Student en lagar de 
la normal estándar cuando v s* 30. 

Recuérdese que para formular inferencias con respecto a fi cuando el muestreo 
se lleva a cabo sobre una distribución normal con media y varianza desconocidas, se 
necesita determinar la distribución de (A' - n)/(S/\Jn). Cuando se muestrea una 
distribución N(fi, o-) se sabe, del teorema 7.3, que la distribución de (X - fi)/(a-/\/n) 
es N(0, 1). Para la misma condición, se sabe que, de (7.15) y del teorema 7.6, la 
distribución de (n - 1 )S 2 /cr es chi-cuadrada con n - 1 grados de libertad. Dado 
que puede demostrarse que X y S~ son independientes, del teorema 7.7 se despren- 
de que la distribución de 

X — /j. 



r/\Jn X - fí 



l (n - l)S 2 /a- <r/y/n \/S 2 ' 
(n - 1) 



7" = 



X — fj. 

(7.24) 



s/y/n 

es la t de Student con n - 1 grados de libertad. 



TABLA 7.3 Comparación entre los valores cuantiles de las distribuciones / de Student y nor- 
mal estándar 

a 'l-«. 20 'l-u..VI 'l-u 40 l \~u. 50 *-i " 

0.10 1.325 1.310 1.303 1.299 1-282 

0.05 ' 1.725 1.697 1.684 1.676 1.645 

0.01 2.528 2.457 2.423 2.403 2.326 
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Ejemplo 7.8 El Departamento de Protección al Medio Ambiente asegura que, para 
un automóvil compacto en particular, el consumo de gasolina en carretera es de un 
galón por cada 45 millas. Una organización independiente de consumidores adquie- 
re uno de estos sutomóviles y lo somete a prueba con el propósito de verificar la cifra 
proporcionada por el DPMA. El automóvil recorrió una distancia de 100 millas en 
25 ocasiones. En cada recorrido se anotó el número de galones necesarios para reali- 
zar el viaje. Los 25 ensayos, el valor promedio y la desviación estándar, tuvieron un 
valor de 43.5 y 2.5 millas por galón, respectivamente. Si se supone que el número de 
millas que se recorre por galón es una variable aleatoria distribuida normalmente, 
con base en esta prueba ¿existe alguna razón para dudar de la varacidad del dato 
proporcionado por el DONA? 

Este problema ilustra algunas de las dificultades prácticas que pueden encontrar- 
se al ponerse en práctica la noción de muestra aleatoria. En forma ideal, se debieron 
seleccionar 25 carros de la misma marca, modelo y configuración de mot^r, Je ma- 
nera aleatoria, del mismo proceso de armado, de manera que fuese posible conside- 
rar el consumo de combustible como una variable aleatoria. Sin embargo, en éste y 
otros, lo anterior representa un costo prohibitivo. A pesar de lo anterior, debe deter- 
minarse la veracidad de la información proporcionada por el DPMA con base en la 
probabilidad. Esto es, si n fuese realmente igual a 45 millas por galón, ¿Cuál es la pro- 
babilidad de que se observe un valor de X no mayor de 43.5 millas por galón, con base 
en una muestra de tamaño 25 y una estimación de a igual a 2.5? 

De (7.24) puede verse que 

- J ~ f 1 - 43J ~ 45 
~ s/y/ñ ~ 2.5/V25 

= -3 

es un valor de la distribución / de Student con 24 grados de libertad. De la tabla F del 
apéndice se tiene que P(T =£ - 3) < 0.005. Es decir, si el valor verdadero de la me- 
dia es 45, la probabilidad de observar un valor de Trio mayor de — 3 unidades, es 
menor de 0.005. En cualquier caso, se ha observado algo que tiene una posibilidad 
de ocurrir menos de 5 en 1 000, o fi tiene un valor real menor de 45. Para esta si- 
tuación es preferible elegir la segunda explicación. 



7.7 La distribución de la diferencia entre dos medias muéstrales 

En muchas ocasiones surge la necesidad de comparar las medias de dos distribucio- 
nes distintas. Por ejemplo, supóngase que se tiene interés en comparar los tiempos 
de duración promedio de las baterías para automóvil "48 meses " de las marcas 
Mears and Sawbuck y J.C. Nickel. Las baterías vendidas por dos comerciantes, de ma- 
nera factible, se producen por compañías distintas y se fabrican bajo diferentes espe- 
cificaciones. Para cada una se supondrá que existe una distribución, diferente de la 
otra, que toma en cuenta la duración de las baterías. 
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Sea -X una variable aleatoria que representa la duración del acumulador Mears 
and Sawbuck, en forma que X ~ N(fi x , a). De manera similar, sea y la correspon- 
diente variable aleatoria para las baterías J.C. Nickel tal que Y ~ N(ji Yr a). Nótese 
que se supone que las varianzas deXy Y son iguales. Se selecciona una muestra alea- 
toria de «^baterías de la marca Mears and Sawbuck y una muestra aleatoria de n Y 
de. la marca J.C. Nickel. Los acumuladores de las dos muestras se someten a la 
misma prueba de duración en la que se controlan todos los factores externos identifi- 
cados. Las diferencias observadas para los tiempos de duración en ambas marcas se 
deben sólo a la variabilidad inherente del proceso de fabricación respectivo. El inte- 
rés recae en formular una inferencia con respecto a la diferencia \l x ~ Mr entre las 
dos medias desconocidas. 

Un enfoque viable para este problema es formular la inferencia con base en la 
diferencia que hay entre las dos medias muéstrales X y 7. De acuerdo con lo ante- 
rior, se necesita obtener la distribución de X - Y cuando el muestreo se lleva a cabo 
sobre dos poblaciones normales independientes con varianzas iguales. Si se supone 
que el valor de la varianza a 2 se conoce del teorema 7.3, se sabe que la_distribución 
de X es normal con media ix x y varianza <r 2 /n x . La distribución de Y también es 
normal pero con media fi Y y varianza o*/n r . Dado que X y Y son variables alea- 
torias independientes normalmentedistribuidas, si a, = 1 y a 2 = - 1 en el teo- 
rema 7.2, la distribución de X - Y también es normal con media Hx ~ Mr y va- 
rianza (o- 2 /n x ) + (a^/ny) — <r\\/n x + \fn Y ). Por lo tanto, si se conoce el valor de 
cr 2 , la distribución de 

Z = *-y -Ü*- Mr ) (7.25) 



o- /— + - 
Y n x n 



Y 



es N(0, 1). La expresión (7.25) proporciona un camino adecuado por medio del cual 
se puede formular una inferencia con respecto a la diferencia de las medias poblacio- 
nales de dos distribuciones normales independientes con igual varianza. 

En el desarrollo de (7.25) se supuso que el valor de o- 2 era conocido. Sin embar- 
go, es poco probable conocer jel valor de cr para una situación real. Así pues, debe 
obtenerse la distribución de X - Y cuando el muestreo se lleve a cabo sobre dos 
poblaciones normales independientes con varianzas iguales pero desconocidas. Para 
cada una de las dos muestras aleatorias, pueden definirse las varianzas muéstrales 
S 2 X y S 2 Y dadas por (7.14). Dado que (n x - \)S 2 x /cr 2 y (n Y - l)5^/o- 2 son dos va- 
riables independientes chi-cuadrada, con n x — 1 y n Y - 1 grados de libertad 
respectivamente, por el teorema 7.6, la distribución de 

w = (n x - l)S 2 x + {n Y -l)S\ (? 26) 

a 2 cr 2 

también es chi-cuadrada con n x + n Y - 2 grados de libertad. De la expresión 
(7.19) se desprende el hecho de que el cociente de Z en (7.25) y la raíz cuadrada de W 
divida entre sus erados de libertad tiene una distribución / de Student con n x + n Y - 2 
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grados de libertad. Esto es, 



[X- Y - Qi x - pr)]/*/- + - 

V n x n Y 



n x "r X-Y - (fi x - My ) 



J[(n x - l)S x + (n Y - l)S 2 r ]/¿ kn x - \)S\ + (n Y - \)S\ Í 1 | l\ 
~ n x + n Y - 2 v n x + n r — 2 \n x n Y ) 



T = X-Y-UL x -y r ) (?>27) 



V n x n Y 



en donde 



Si = [(n x - \)S\ + (n Y - \)S\]/(n x + n Y - 2) (7.28) 



que, en general, recibe el nombre de estimador combinado (pooled) de la varianza 
común o -2 . Nótese de (7.28) que S 2 P es el promedio, con factores de peso, de las dos 
varianzas muéstrales S x y S 2 Y , siendo los factores de peso los grados de libertad. De 
acuerdo con lo anterior, se puede formular una inferencia con respecto a la diferen- 
cia entre fi x y fi r con base en (7.27), cuando el muestreo se lleva a cabo sobre dos 
poblaciones cuyas distribuciones son anormales e independientes y en donde las va- 
rianzas son iguales pero sus valores no se conocen. 

En este momento es natural que el lector pregunte qué pasa si no es posible supo- 
ner que la varianza de las dos distribuciones sea la misma. Si las varianzas cr x y o> 
no son iguales, pero se conocen sus valores, el problema es sencillo. La distribución de 

z = X-Y -(K- yr) (7 29) 
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V n x 




n Y 



aún es N(0, 1), por las mismas razones que llevaron a la expresión (7.25). Por otro 
lado, si se desconocen los valores de las varianzas y además éstos no son iguales, el 
problema es mucho más complicado y por esta razón no debe emplearse la expresión 
(7.27). En esencia, una situación como la anterior constituye lo que se conoce como 
el problema de Fisher-Behrens, el cual se encuentra más allá del alcance de este libro. 
Existen algunas aproximaciones a este problema, una de la cuales puede encontrarse 
en[l]. 



7.8 La distribución F 

De la sección 7.5, recuérdese que las inferencias con respecto a a 2 cuando se 
muestrea una distribución normal, se formulan con base en la estadística (n - \)S 2 
/o- 2 , la que tiene una distribución chi-cuadrada con n - 1 grados de libertad. En esta 
sección se H^carrollará la estadística anroniada para emplearse en la formulación de 



■ilfc 
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inferencias con respecto a las varíanzas de dos distribuciones normales independien- 
tes con base en las muestras aleatorias de cada una. Por último, se analizará la teoría 
de una distribución muy útil, la cual se conoce como distribución F. 

Supóngase un experimento en que se observan dos variables aleatorias indepen- 
dientes Xy Y, cada una con una distribución chi-cuadrada con v x y p 2 grados de li- 
bertad respectivamente. Sea F una variable aleatoria que es función de A" y y, de ma- 
nera tal que . \ 

F = %P. (7-30) 

Y/V 2 

Esto es, la variable aleatoria F es el cociente de dos variables aleatorias chi-cuadra- 
da, cada una dividida por sus grados de libertad. Lo anterior lleva al siguiente teorema. 

Teorema 7.8 Sean Xy Y dos variables aleatorias independientes chi-cuadrada 
con v x y v 2 grados de libertad, respectivamente. La variable aleatoria 

Y/v 2 
tiene una distribución F con una función de densidad de probabilidad dada por 



g(f; v,,v 2 )* = • 



rW2)i> 2 /2) J ("2 + ^) J>o, (73|) 

para cualquier otro valor 



(La deducción dé la función de densidad de probabilidad de F es similar a la de la / 
de Student y se deja como ejercicio para el lector.) 

La distribución F se caracteriza completamente por los grados de libertad v x y v 2 . 
Puede demostrarse que el valor esperado es 

E(F) = v 2 /(v 2 -2) v 2 > 2, (7.32) 

y la varianza está dada por 

Var(F) = — —=- v 2 > 4. (7.33) 

v t (v 2 - 2)> 2 - 4) 

La distribución F tiene asimetría positiva para cualesquiera valores de v¡ y v 2 , pero 
ésta va disminuyendo conforme v¡ y v 2 toman valores cada vez más grandes. 
En la tabla G del apéndice, se encuentran los valores cuantiles /i -<,.„,.„; > tales que 

P(F «/,_„.„„„) = J o g(f\ v uVl )df = 1 - a, *s a « 1 (7.34) 

* Se emplea g para denotar la función de densidad y de esta forma evitar cualquier confusión con res- 
pecto al argumento/. 
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para las proporciones acumulativas seleccionadas 1 - a y distintas combinaciones 
de los grados de libertad del numerador v,, y del denominador v 2 del cociente 
(7.30). Por ejemplo, si> v,.— 5 y v 2 = iQ, entonces: 'a ■ - 

PÍF « A9o.5..o) = P{F « 2.52) = o'.90, 

' '/V > ¿/o¿m.ió)=>(F* 3.33) -0.95, • 

P\F "«/o.99j.io) = P(F ^ 5.64) = 0.99. 

Nótese que en la tabla G se encuentran los valores cuantiles /i -<,.*,.►: únicamente para 
a < 0.5. Si se desean los cuantiles del lado izquierdo (es decir, para a > 0.5) és- 
tos pueden encontrarse mediante el siguiente procedimiento: si la variable aleatoria F tie- 
ne una distribución Fcon v¡ y v 2 grados de libertad, entonces la variable F' ~ \/F 
también tiene una distribución Fpero con v 2 y v, grados de libertad. Puede verse 
que lo anterior es cierto, a par* : r de (7.30), 

F = —, — = 777—. - (7.35) 

X/Vj X¡v x 

y/ v'i 

Si se desean los valores cuantiles /,_„.„,.„, para a > 0.5, 

W */,_„.„.„) = P[^>T^ ) = 1 - «• 

\' J\-a.¡>\.vlJ 



P\^f^ — !=«• ( ? 36) 

Pero \/F = F' ~ F se encuentra distribuida con v 2 y v y grados de libertad. 
Entonces el a-ésimo valor cuantil de F' es tal que 

P(F'^ /;.„.„) = a. (7.37) 

Dado que (7.36) y (7.37) son idénticas, se sigue que 

J a.vz.n ~ I//1- u.i., .1-: 

y 

/.-„.„.„ = V/U.,. for«>0.5. (7.38) 

Como ejemplo, sea v, = 8 y v 2 = 12. Entonces 

PlF^fo.™ .«.,:) = PiFsz 1//¿.«,. 12J ,) = W« 1/3.28) = P(F s 0.305) = 0.05. 
o 

^ ^/o.üi.8.13) = P(F« I// ( ;. w . 12 .„) = P(F=s 1/5.67) = />(F=s 0.176) = 0.01. 
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Regresando al problema de desarrollar una estadística apropiada para usarse en 
la formulación de inferencias con respecto a las varianzas de dos distribuciones nor- 
males independientes, sea X lt X 2 , .-, X„ y una muestra aleatoria de variables aleato- 
rias independientes y normalmente distribuidas cada una con media Hxy yariariza 
a x ■ También sea K, , Y 2 Y„ Y un conjunto de n Y variables aleatorias indepen- 
dientes normalmente distribuidas, cada una con media fi Y y varianza &\. Si se supo- 
ne que las X y las Y son independientes, las^ estadísticas 

(n x - DSx/ax 



<n Y - \)S\/cr\ 

son dos variables aleatorias chi-cuadrada independientes con n x - 1 y n Y - 1 gra- 
dos de libertad, respectivamente. Entonces, por el teorema 7.8, se desprende que la 
variable aleatoria 



(7.39) 



tiene una distribución F con n x - 1 y n Y - 1 grados de libertad. 

Una aplicación de (7.39) es inmediata si se recuerda el problema general de la sec- 
ción 7.7. Esto es, el formular una inferencia con respecto a la diferencia entre dos 
medias poblacionales ya sea cuando se conocen las varianzas de las poblaciones o 
cuando se supone que se conoce, al menos, el cociente de éstas. Una forma factible 
de verificar la validez de esta suposición es mediante el empleo de (7.39). Si la supo- 
sición de que <t\ = a 2 Y es correcta, la estadística F dada por (7.39), se reduce a 

F = S X /S 2 Y . (7.40) 

Cuando se obtienen los valores de S 2 X y S 2 Y a partir de las muestras y se calcula el 
cociente (7.40), puede concluirse que la hipótesis de varianza iguales es falsa si el valor 
de este cociente es, de manera suficiente, distinto de 1. En otras palabras, si las dos 
varianzas son iguales, la probabilidad de observar un valor de F distinto, de manera 
suficiente, es pequeña. 

Para finalizar, debe notarse que en esta sección, así como en las secciones 7.5 y 
7.7, se desarrolló el material que se presentó bajo la hipótesis de realizar un 
muestreo aleatorio sobre poblaciones que tienen una distribución normal. En la rea- 
lidad, la hipótesis de normalidad puede o no ser justificable. Sin embargo, desde un 
punto de vista práctico, el lector debe darse cuenta que la diferencia entre la distribu- 
ción normal y el modelo de probabilidad de la población de interés es inversamente 
proporcional a las técnicas delineadas para formular inferencias. La afirmación an- 
terior es particularmente cierta cuando se formulan inferencias con respecto a las va- 
rianzas cuando se emplean la distribución chi-cuadrada o la F. 



I 
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Ejercicios 

7.1. Una firma de mercadotecnia envía un cuestionario a 1 000 residentes de cierto suburbio 
de una ciudad para determinar sus preferencias como compradores. De los 1 000 resi- 
dentes, 80 responden el cuestionario. ¿Lo anterior constituye una muestra aleatoria? 
Discutir los méritos de este procedimiento para obtener una muestra aleatoria. 

7.2. En una planta de armado automotriz se seleccionarán 50 de los primeros 1 000 automó- 
viles de un nuevo modelo para ser inspeccionados por el departamento de control de ca- 
lidad. El gerente de la planta decide inspeccionar un automóvil cada vez que terminan 
de armarse 20. ¿Este proceso dará como resultado una muestra aleatoria? Comente. 

7.3. Si X } , X v ..., X n constituye una muestra aleatoria, obtener las funciones de verosimili- 
tud de las siguientes distribuciones: 

a) De Poisson, con parámetro X; 

b) Hipergeométrica, con parámetro p; 

c) Uniforme en el intervalo (a, b);. 

d) N(n,(T). 

7.4. Repetir el ejercicio 7.3 para las siguientes distribuciones: 

a) Gama con parámetro a y $, 

b) Weibull con parámetro a y 6. 

7.5. Sea X,, X 2 , ..., X„ una muestra aleatoria de una población cuya distribución es 
normal con media n y varianza a 2 desconocidas. De las siguientes, ¿cuáles son esta- 
dísticas? 

a) I.X¡ - n d) X] + X¡ - exp(X } ) 

b) aX, + aX 2 e) Xjv, i = 1,2, ..., n 

c) X¡, i = 1,2, .... n f) Z(X, - X)- 

7.6. Sean X,, X 2 , ■■■■ X„ n variables aleatorias independientes de Poisson con parámetros 
\,, \ 2 , .... \„, respectivamente. Mediante el empleo de la función generadora de mo- 
mentos, demostrar que la suma de estas variables también es una variable aleatoria de 
Poisson con parámetros \ i + \ 2 + ••• + \„- 

7.7. Sean X, y X 2 dos variables aleatorias independientes de Poisson con parámetros \, y 
\, respectivamente. Demostrar que la diferencia entre X x y X 2 no es una variable alea- 
toria de Poisson. 

7.8. Sean X, y X 2 dos variables aleatorias independientes binomial con parámetros n, y p, y 
n 2 y p, respectivamente. Demostrar que la suma de X, y X 2 es una variable aleatoria bi- 
nomial con parámetros n, + n 2 y p. 
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7-9. Sean AYy X 2 dos variables aleatorias independientes distribuidas exponencialmente con 
el mismo parámetro 0. Demostrar que la suma de Xt y X 2 es una variable aleatoria gama 
con parámetro de forma 2 y parámetro de escala 0. 

7. 10. Para un determinado nivel de ingresos, el Departamento de Hacienda sabe que las canti- 
dades declaradas por concepto de deducciones médicas (A*,), contribuciones caritativas 
(X 2 ) y gastos varios (A"j), son variables aleatorias independientes normalmente distribui- 
das con medias $400, $800 y $100 y desviaciones estándar $100, $250 y $40, respectiva- 
mente. 

a) ¿Cuál es la probabilidad de que la cantidad total declarada por concepto de estas tres 
deducciones, no sea mayor de $1 600? 

b) Si una persona con este nivel de ingresos declara por concepto de estas deducciones 
un total de $2 100, ¿qué tan probable es tener una cantidad igual o mayor a este 
monto bajo las condiciones dadas? 

7.11. Una tienda de artículos eléctricos para el hogar vende tres diferentes marcas de refrige- 
radores. Sean A',, X 2 y X, variables aleatorias las cuales representan el volumen de ventas 
mensual para cada una de las tres marcas de refrigeradores. Si X, , A 2 y X } son variables 
aleatorias independientes normalmente distribuidas con medias $8 000, $15 O^X) y 
$12 000, y desviaciones estándar $2 000, $5 000 y $3 000, respectivamente, obtener la 
probabilidad de que, para un mes en particular, el volumen de venta total para los tres 
refrigeradores sea mayor de $50 000. 

7.12 En una tienda de servicio el tiempo total del sistema consta de dos componentes (el lap- 
so de tiempo que debe esperarse para que el servicio dé comienzo (X, ) y el lapso de tiem- 
po que éste dura (A r 2 )). Si A", y A" 2 son variables aleatorias independientes exponencial- 
mente distribuidas con un tiempo medio de 4 minutos cada una, ¿cuál es la probabilidad 
de que el tiempo total que tarda el sistema en proporcionar el servicio no sea mayor de 
15 minutos? (Sugerencia: consulte el ejercicio 7.9.) 

7.13. Sea X¡, X 2 , ..., X„ una muestra aleatoria de una población que tiene una distribución 
gama con parámetros a y 0. Mediante el uso de la_función generadora de momentos, 
demostrar que la distribución de la media muestral X también es de tipo gama, con pa- 
rámetros de escala y de forma iguales a na y 0/n respectivamente. 

7.14. Mediante el empleo de los resultados de la sección 5.9, generar números aleatorios para 
las distribuciones binomial y exponencial y usarlos para demostrar el teorema central del 
límite. De manera específica, para n = 10 y n = 40, generar 50 muestras de una distri- 
bución binomial con p = 0.4. Repetir el procedimiento anterior generando 50 muestras 
de una distribución exponencial con parámetro = 100. ¿Se ha demostrado el teorema 
central del límite en un grado razonable? 

7.15. Para cierta prueba de aptitud se sabe con base en la experiencia que el número de acier- 
tos es 1 000 con una desviación estándar de 125. Si se aplica la prueba a 100 personas se- 
leccionadas al azar, aproximar las siguientes probabilidades que involucran a la media 
muestral X. 

a) P(9S5 <X< 1015) c) P(X > 1020) 

b) />(960 < X < 1040) d) P{X < 975) 

7.16. Un contratista piensa comprar una gran cantidad de lámparas de alta intensidad a cierto 
fabricante. Éste asegura al contratista que la duración promedio de las lámparas es de 



246 Muestras aleatorias y distribuciones de muestreo 

1 000 horas con una desviación estándar igual a 80 horas: El contratista decide comprar 
las lámparas sólo si una muestra aleatoria de 64 de estas da como resultado una vida 
promedio de por lo menos 1 000 horas. ¿Cuál es la probabilidad de que el contratista 
adquiera las lámparas? 

7.17. Un inspector federal de pesos y medidas visita una planta de empacado para verificar 
"que el peso neto de las cajas sea el indicado en éstas. El gerente de la planta asegura al 

inspector que el peso promedio de cada caja es de 750 gr con uña desviación estándar 
de 5 gr. El inspector selecciona, al azar, 100 cajas y encuentra que el peso promedio 
es de 748 gr. Bajo estas condiciones, ¿qué tan probable es tener un peso de 748 o me- 
nos? ¿Qué actitud debe tomar el inspector? 

7.18. En la fabricación de cojinetes para motores, se sabe que el diámetro promedio es de 5 
cm con una desviación estándar igual a 0.005 cm. El proceso es vigilado en forma perió- 
dica mediante la selección aleatoria de 64 cojinetes, midiendo sus correspondientes 
diámetros. El proceso no se detiene mientras la probabilidad de que la media muestral se 
encuentre entre dos limites especificados sea de 0.95. Determinar el valor de estos límites. 

7.19. En la producción de cierto material para soldar se sabe que la desviación estándar de la 
tensión de ruptura de este material es de 25 libras. ¿Cuál debe ser la tensión de ruptura 
promedio del proceso si, con base en una muestra aleatoria de 50 especímenes, la proba- 
bilidad de que la media muestral tenga un valor mayor de 250 libras es de 0.95? 

7.20. Genere 50 muestras, cada una de tamaño 25 a partir de una distribución normal con me- 
dia 60 y desviación estándar 10. Calcule la varianza de cada muestra mediante el empleo 
de (7.14). 

a) Obtener la media y la varianza de 5" mediante el empleo de los 50 valores calculados. 
¿Cómo son estos valores al compararlos con los proporcionados por las expresiones 
(7.17) y (7.18)? 

b) Agrupar los 50 valores calculados de S 2 y granear las frecuencias relativas. Coméntese 
sobre los resultados. 

7.21. Repetir el ejercicio 7.20 pero generando los valores aleatorios a partir de una distribu- 
ción exponencial con parámetro de escala = 30. Haga un comentario sobre sus resul- 
tados. 

7.22. Para un gerente de planta es muy importante controlar la variación en el espesor de un 
material plástico. Se sabe que la distribución del espesor del material es normal con una 
desviación estándar de 0.01 cm. Una muestra aleatoria de 25 piezas de este material da 
como resultado una desviación estándar muestral de 0.015 cm. Si la varianza de la 
población es (0.0 1 )- cm\ ¿cuál es la probabilidad de que la varianza muestral sea igual 
o mayor que (0.01 5) : enr ? Por lo tanto, ¿qué puede usted concluir con respecto a la va- 
riación de este proceso? 

7.23. Si se obtiene una muestra aleatoria de ai = 16 de una distribución normal con media y 
varianza desconocidas, obtener P(S 2 /a l s 2.041). 

7.24. Si se obtiene una muestra aleatoria de tamaño n = 21 de una distribución normal con 
media y varianza desconocidas, obtener P(S 2 /a' =£ 1.421). 

7.25. Un fabricante de cigarrillos asegura que el contenido promedio de nicotina, en una de 
sus marcas, es de 0.6 mg por cigarrillo. Una organización independiente mide el conteni- 
do de nicotina de 16 cigarrillos de esta marca y encuentra que el promedio y la desvia- 



I ción estándar muestral es de 0.75 y 0. 175 mg, respectivamente, de nicotina. Sise supone 

que la cantidad de nicotina en estos cigarrillos es una variable aleatoria normal, ¿qué 
tan probable es el resultado muestral dado ej dato proporcionado por el fabricante? > 

7.26. Durante los 12 meses pasados el volumen diario de ventas de un restaurante fue de 
$2 000. El gerente piensa que los próximos 25 días serán típicos con respecto al volumen 
de ventas normal. Al Analizar los 25 días, el volumen de ventas y su desviación estándar 
promedio fueron de $1 800 y $200, respectivamente. Supóngase que el volumen de ven- 
tas diario es una variables aleatoria normal. Si usted fuese el gerente, ¿tendría alguna ra- 
zón para creer, con base en este resultado, que hubo una disminución en el volumen de 
ventas promedio diario? 

7.27. El gerente de una refinería piensa modificar el proceso para producir gasolina a partir 
de petróleo crudo. El gerente hará la modificación sólo si la gasolina promedio que se 
obtiene por este nuevo proceso (expresada como un porcentaje del crudo) aumenta su 
valor con respecto al proceso en uso. Con base en un experimento de laboratorio y me- 
diante el empleo de dos muestras aleatorias de ♦am-fio 12, una para cada proceso, la 
cantidad de gasolina promedio del proceso en uso es de 24.6 con una desviación están- 
dar de 2.3, y para el proceso propuesto fue de 28.2 con una desviación estándar de 2.7. 
El gerente piensa que los resultados proporcionados por los dos procesos son variables 
aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en 
esta evidencia, ¿debe adoptarse el nuevo proceso? 

7.28. Una organización independiente está interesada en probar la distancia de frenado a una 
velocidad de 50 mph para dos marcas distintas de automóviles. Para la primera marca 
se seleccionaron nueve automóviles y se probaron en un medio controlado. La media 
muestral y la desviación estándar fueron de 145 pies y 8 pies, respectivamente. Para la se- 
gunda marca se seleccionaron 12 automóviles y la distancia promedio resultó ser de 132 pies 
y una desviación estándar de 10 pies. Con base en esta evidencia, ¿existe alguna razón para 
creer que la distancia de frenado para ambas marcas, es la misma? Supóngase que las 
distancias de frenado son variables aleatorias independientes normalmente distribuidas 
con varianzas iguales. 

7.29. La variación en el número de unidades diarias de cierto producto, el cual manejan 
dos operadores A y B, debe ser la misma. Con base en muestras de tamaño n A = 16 
días y «s = 21 días, el valor calculado de las desviaciones estándar muéstrales es de 
s A = 8.2 unidades y s B = 5.8 unidades. Si el número de éstas, manejadas por los dos 
operadores, por día, son dos variables aleatorias independientes que se encuentran 
aproximadas, en forma adecuada, por distribuciones normales, ¿existe alguna ra- 
zón para creer que las varianzas son iguales? 

7.30. Con base en la información proporcionada en el ejercicio 7.27, ¿existe alguna razón 
para creer que las varianzas de los dos procesos son iguales? 



APÉNDICE 

Demostración del teorema central del límite 

El propósito de este apéndice no es el presentar una demostración general y elegante 
desde el punto de vista matemático, sino más bien proporcionar un esbozo de la de- 
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mostración del teorema central del límite. Se quiere demostrar que la función gene- 
radora de momentos de (X - fi)/ (<r/\/n) tiende a la de una distribución normal 
estándar conforme n tiende al infinitó. Sean " 



Z, = (X¡ - fi)/o- i = 1,2, 



n, 



«.--i Itr/V" 



entonces 



Y = 



M 



v/y/ñ' 



Dado que 



« o-/ V« i- i 



1 " 1 



1 



« o-/V« 



F= ( n X ~ n V-) ~ 



V- 



r/V~n' 



1 

V«í-i 

Como resultado se tiene que la función generadora de momentos de Y es igual a la 
función generadora de momentos de (l/V") £"=, Z,. Del teorema 7.1, 

»M0 = [m z ,(//V«)]" 

= {£[exp(rZ,/Vñ)]r, 

dado que las Z, son variables aleatorias independientes. 
Al expander (tZJ\/n) en una serie de Taylor: 

t t 2 i 3 

exp(/Z f /V«) = 1 + -pZi + =-Z? + r^Z? + - . 
\Jn 2/i 3!/7 

Si se toman los valores esperados y se recuerda que E(Z¡) = y Var(Z¡) = 1 , / = 
1, 2, ..., n, se tiene 

£[exp(/Z,/V«)] =\+i- + TT-Í75£(2-) + 



2n 3!« 3/2 ' 



De acuerdo con lo anterior 



+ £ + ^^ + - 



2n 3!« J 



1 + - 

AI 



1 + 



r r 
.2 3!V« 
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en donde 



Ahora 



t 2 í 3 
u = - + p£(Z 3 ) + 



2 V.yfn 



pero por definición 



lím/n K (/) = líml 1 + -I , 



lím( 1 + -I = e". 



Lo anterior da como resultado una situación idéntica a la que se tiene en la de- 
mostración del teorema 5.1. Esto es, conforme «->», todos los términos en u, ex- 
cepto el primero, tienden hacia cero debido a que todos tienen potencias positivas de 
n en sus denominadores. Por lo tanto, puede deducirse que 

lím m Y (t) = exp(/ 2 /2), 

n— *^ 

o la distribución límite de Y = (X - (i)/(o-/\/n) es la normal estándar para valo- 
res grandes de n. 



APÉNDICE 

Deducción de la función de densidad de probabilidad t de Student 

Sea Tuna variable aleatoria definida por (7.19). Considere la densidad de probabili- 
dad de T cuando X se mantiene fija en un valor x. Dado que 

Mz) = -L=exp(-z 2 /2), 
V2tt 

la densidad de probabilidad condicional de 

t = z/( X / v y /2 

se obtiene al considerar la relación inversa 

Z =(x/v) U2 T 
y al sustituir en f/Xz), en donde el jacobiano de la transformación es 

dt 



250 Muestras aleatorias y distribuciones de muestreo 
De esta forma 

fit \ x) = (*/*)' /2 exp(-xf 2 /2y). -oc < t < oo, * >0. 

De (6.19) se sabe que la densidad cpnjunta de T y X es 

/(/,jr)=/(/|jr)^(x). 
Dado que X ~ X 2 ,, 



A(x) = 2 '' 2 r( y /2) *"~ 2>/2exp( ~ x/2) ' x > °- 



De esta forma 



/(/. x) = 



v""" /2 exp 



2 ~~ 2v 



\J1ttv 2" /2 I>/2) 

= c l jt , " _ " /I exp(-c 2 jc/2), 

en donde c, = 1/[V2™ 2" /2 I>/2)] y c 2 = [1 + (r/v)]. Integrando /(f, jt) con 
respecto a x, se obtiene la función de densidad de probabilidad de la distribución t de 
Student. De acuerdo con lo anterior 

frU) = Cl j o x {,, - i)/2 eM-c 2 x/2)dx 

= c, (2y/c 2 ) ( """ /2 exp(-y)(2/c 2 )í/y, en donde y = c 2 x/2ydx = (2/c 2 )dy 
Jo 

= c x {2/c 2 t + "' 2 \ y- ,,/2 exp(-y)rfy 

Jo 

= c,(2/c 2 ) ( " +,,/2 r[(^ + l)/2] 



1 



■>(>■+ I )/2 



y/2irv2' /2 r(v/2) [i + o 2 M] 



T^üfU» + D/2] 



r[(^_+ i)/2j 

V^ I>/2) 



1 + (í 2 /") 



(>.+ l)/2 



OC < f < CC. 



CAPÍTULO OCHO 



■ • . ,.■: -■■■■■■>■<.: ■...-.'.)- .. .!•: .;; . -.¡- . , fj-..-.¡ i, 1 . B i.' 

Estimación puntual 
y por intervalo 



8.1 Introducción 

En el capítulo anterior se mencionó, en forma breve, que las estadísticas se emplean 
para estimar los valores de parámetros desconocidos o funciones de éstos. En este 
capítulo se examinará con detalle el concepto de estimación de parámetros mediante 
la especificación de las propiedades deseables de los estimadores (estadísticas) y el 
desarrollo de técnicas apropiadas para implementar el proceso de estimación. Se^iti- 
lizará el punto de vista de la teoría del muestreo, que considera a un parámetro como 
una cantidad fija pero desconocida. 

La estimación de un parámetro involucra el uso de los datos muéstrales en con- 
junción con alguna estadística. Existen dos formas de llevar a cabo lo anterior: la es- 
timación puntual y la estimación por intervalo. En la primera se busca un estimador 
que, con base en los datos muéstrales, dé origen a una estimación univaluada del va- 
lor del parámetro y que recibe el nombre de estimado puntual. Para la segunda, se 
determina un intervalo en el que, en forma probable, se encuentra el valor del pará- 
metro. Este intervalo recibe el nombre de intervalo de confianza estimado. 

Al igual que en los capítulos anteriores, la función de densidad de probabilidad 
en la distribución de la población de interés se denotará por j\x\ 6), donde la función 
depende de un parámetro arbitrario 0, el cual puede tomar cualquier valor que se 
encuentre en cierto dominio.* De esta forma, el principal objetivo de este capítulo es 
presentar los criterios convenientes para la determinación de los estimadores de 0. 



8.2 Propiedades deseables de los estimadores puntuales 

Con el propósito de mostrar la necesidad de estimar parámetros, considérese la si- 
guiente situación. Cuando se obtiene una muestra aleatoria de cierta característica X 

* El dominio de un parámetro recibe el nombre de espacio parametral. 



252 Estimación puntual y por intervalo 



de la distribución de la población, y a pesar de que pueda identificarse la forma fun- 
cional de la densidad de ésta, es poco probable que la característica pueda especifi- 
carse de manera completa mediante los valores de todos los parámetros. En esencia, 
se conoce la familia de distribuciones a partir de la cual se obtiene la muestra, pero 
no puede identificarse el miembro de interés de ésta, ya que no se conoce el valor del 
parámetro. Este ultimo tiene que estimarse con base en los datos de la muestra. Por 
ejemplo, supóngase que la distribución del tiempo de servicio en una tienda es expo- 
nencial con parámetro desconocido 6. Se observan 25 lapsos aleatorios y la media 
muestral calculada es igual a 3.5 minutos. Dado que para la distribuciñ exponencial 
E(X) = 9, un estimado puntual de 6 es 3.5. Por lo tanto, de manera aparente, el 
muestreo se llevó a cabo sobre una distribución exponencial cuya media estimada es 
de 3.5 minutos. 

Es posible definir muchas estadísticas para estimar un parámetro desconocido 0. 
Por ejemplo, para el caso anterior pudo elegirse la mediana muestral para estimar el 
valoi de la media. Entonces, ¿cómo seleccionar un buen estimador de 0? ¿Cuáles 
son los criterios para juzgar cuándo un estimador de 6 es "bueno" o "malo"? De 
manera intuitiva, ¿qué es un buen estimador? Si se piensa en términos de "estima- 
dores humanos" como los que se encuentran en las compañías grandes de construc- 
ción, entonces quizá un buen estimador sea aquella persona cuyas estimaciones 
siempre se encuentran muy cercanas a la realidad. Como ejemplo adicional, suponga 
que un grupo de personas se encuentra al tanto del volumen de ventas y adquisi- 
ciones de tres comerciantes (A, B y C) quienes compiten en el mismo mercado. 
Como el inventario es siempre un aspecto importante en los negocios, cada uno de 
estos comerciantes predice la demanda mensual de sus productos y, con base en ésta, 
realizan las adquisiciones necesarias. Supóngase que se determina la diferencia entre 
las demandas real y la esperada para varios meses y con base en éstas se obtienen las 
distribuciones de frecuencia que se muestran en la figura 8.1. 



Mr* 




FIGURA 8.1 Frecuencias alisadas para la diferencia entre las demandas real y predecida 
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La intuición sugiere que el comerciante C es el que hace mejor su trabajo no sólo 
porque la distribución de la diferencia entre las demandas real y esperada se con- 
centra alrededor del valor perfecto de cero sino también porque la variabilidad de lá 
diferencia es, en forma relativa, pequeña. Para el comerciante A¿ aun a pesar de que 
la distribución también se encuentra centrada alrededor del origen, existe una mayor 
variabilidad en las diferencias. La distribución para el comerciante B se concentra 
alrededor de un valor negativo, lo cual sugiere que B sobreestima la mayor parte del 
tiempo la demanda mensual. 

Si se acepta la premisa de que el objetivo de la estimación de parámetros no es 
igual al de los estimadores o predictores humanos, entonces, de los ejemplos ante- 
riores, surgen dos propiedades deseables: el estimador de un parámetro 9 debe tener 
una distribución de muestreo concentrada alrededor de 9 y la varianza del estima- 
dor debe ser la menor posible. 

Para ampliar las propiedades anteriores, considérese lo siguiente. Sea A", , X 2 X„ 

una muestra aleatoria de tamaño n proveniente de una distribución con función 
de densidad f{x; 9), y sea T = u(X u X 2 , . , X„) cualquier estadística. El proble- 
ma es encontrar una función u que sea la que proporcione la "mejor" estimación de 
9. Al buscar el mejor estimador de 9 se hará uso de una cantidad muy importante 
que recibe el nombre de error cuadrático medio de un estimador. 

Definición 8.1 Sea T cualquier estimador de un parámetro desconocido 9. Se defi- 
ne el error cuadrático medio de T como el valor esperado del cuadrado de la dife- 
rencia entre Ty 9. 

Para cualquier estadística T, se denotará el error cuadrático medio por ECM(7); 
de esta forma 

ECM(D = E(T - 9) 2 . (8.1) 

Puede verse la razón del por qué el error cuadrático medio es una cantidad im- 
portante para enjuiciar a los posibles estimadores de 9 mediante el desarrollo de 
(8.1); este es, 

ECM(7) = E(T 2 - 29T + 9 2 ) 

= E(T 2 ) - 29E(T) + 9 2 

= Var(T) + [E{T)f - le :(7") -i- 9 2 

= VaiiT) + [0 - E(T)} 2 . (8.2) 

El error cuadrático medio de cualquier estimador es la suma de dos cantidades no 
negativas: una es la varianza del estimador y la otra es el cuadrado del sesgo del esti- 
mador. El lector encontrará que estas dos cantidades se encuentran relacionadas en 
forma directa con las propiedades deseables de un estimador. De manera específica, la 
varianza de un estimador debe ser lo más pequeña posible mientras que la distribu- 
ción de muestreo debe concentrarse alrededor del valor del parámetro. Por lo tanto, 
el problema visto de manera superficial parece bastante sencillo; esto es, seleccionar, 
como el mejor estimador de 9, la estadística que tenga el error cuadrático medio 
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más pequeño posible de entre todos los estimadores factibles de 6. Sin embargo, en 
realidad el problema es mucho más complicado. Aun si fuese práctico determinar 
los errores cuadráticos medios de un número grande de estimadores, para la mayor 
parte de las densidades f(x; d) no existe ningún estimador que minimice el error 
cuadrático medio para todos los posibles valores de 6. Es decir, un estimador puede 
tener un error cuadrático medio mínimo para algunos valores de 0> mientras que 
otro estimador tendrá la misma propiedad, pero para otros valores de 0. 



Ejemplo 8.1 Sea A",, X 2 , ..., A", una muestra aleatoria de alguna distribución tal 
que E(Xj) = p, y Var(X¡) = o- 1 , i = 1,2, ..., n. Considere las estadísticas 



T 2 - X X,/(n + O 



como posibles estimadores de /*. Obtener los errores cuadráticos medios de T l y T 2 y 
demostrar que ECM(7" 2 ) < ECMÍJ,) para algunos valores de n mientras que la pro- 
posición inversa es cierta para otros valores de ¡i. 

El sesgo de 7, es cero, dado que £(T,) = E{X) = /u; de esta forma se tiene 

ECM(7,) = VariT,) = a 2 /n. 



Para T 2 , 



E(T 2 ) = (n+ \r l E[ 2 X 



De manera similar, 



= np/(n + 1). 
Var(T 2 ) = Var 



Un + 1) '¿^, 



(/i + 1)" 2 X VaríXj 



De esta forma se tiene 



= na 2 /(n + I) 2 . 



ECM(7\) 



(« + ir 

na 2 + fi 2 
(n + l) 2 



í + 



M 



«JU 



(« + I) 



I* 
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Si « =1 10 y (r 2 - 100; entonces : n í 

ECM(7,) = 10, í. .-; 

¿ > ecm(7 2 ) = (íooo + M 2 )/m. ■■-■■•íj -■-■■•■■••■• 

Al igualar las dos expresiones anteriores y resolver para ju, se tiene que para fi < 
V^IO, ECM(7 2 ) < ECM(7-,); pero si ¿i >\\/210, entonces ECM( 7,) < ECM(T 2 ). 

Es por esta razón que se deben examinar criterios adicionales para la selección de 
los estimadores de 6, aun a pesar de que el error cuadrático medio sea el concepto 
|j|í más importante. De manera especifica se estudiarán los estimadores insesgados, 

consistentes, insesgado de varianza mínima y eficientes. Entonces, con base en lo an- 
terior, se presentará un concepto importante en la estimación puntual que se conoce 
como estadísticas suficientes. A lo largo de toda la discusión se supodrá la existencia 
de un solo parámetro desconocido. Sin embargo, debe notarse que bajo condiciones 
más generales estos conceptos pueden extenderse para incluir un número mayor de 
parámetros desconocidos. 

8.2.1 Estimadores insesgados 

En el error cuadrático medio de un estimador T, el término [d - E(T)] recibe el 
nombre de sesgo del estimador. El sesgo de T puede ser positivo, negativo o cero. 
Puesto que el cuadrado del sesgo es un componente del error cuadrático medio, es ra- 
zonable insistir que éste sea, en valor absoluto, lo más pequeño posible. En otras pa- 
labras, es deseable que un estimador tenga una media igual a la del parámetro que se 
está estimando. Lo anterior da origen a la siguiente definición. 

Definición 8.2 Se dice que la estadística T = u(X, , X 2 , . . . , X„ ) es un estimador in- 
sesgado del parámetro 0, si E(T) = 6 para todos los posibles valores de 0. De esta 
forma, para cualquier estimador insesgado de 8, la distribución de muestreo de Tse 
encuentra centrada alrededor de 6 y ECM(7") = Var(T). 

En la sección 7.4 se demostró que, sin importar la distribución de la población de 
interés, E(X) = /j.. Por lo tanto, la media muestral es un estimador insesgado de la 

media de la población /j. para todos los valores de fx. De hecho, si X, , X 2 X„ es 

una muestra aleatoria de la distribución de X con media ¿¿.entonces cualquier X t de la 

muestra un estimador insesgado de ft, dado que E(X¡) = ¡x para toda / = 1,2 n. 

Además, si una estadística Tes cualquier combinación lineal de las variables aleato- 
rias de la muestra de manera tal que 

T = «,*, + a 2 X 2 + ■■■ + a „X„ 
en donde 2" = , a¡ = 1, entonces Tes un estimador insesgado de fi dado que 

E(T) = EUtyX¡ + a 2 X 2 + ••• + a„X„) 

* = ciffi + ct^jj. + ■■■ + (l„fl 

= M- 
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En la sección 7.5 se demostró que si la varianza muestra] S 2 está dada por (7.14), 
entonces, cuando se muestrea una distribución normal, E(S 2 ) = o- 2 . A continua- 
ción se demostrará que si S 2 está definida por (7.14), entonces éste es un estimador 
insesgado de a 1 sin importar cuál sea la distribución de la población de-interés. Sea 
X t , X lT ..., X„ una muestra aleatoria de alguna distribución con una función de 
densidad no especificada. De esta manera, E(X¡) = ¡x y VariX¡) = o- 2 para toda -|| 
i = 1,2, ...,/í. 



Entonces 

E(S 2 ) = E I Y (X, -.- X) 2 /(n - 1) 



= («- iy l ElZi&i - ti - & - rin 

= (n - I)" 1 E I ¿ [(*,- - fJL) 2 - n(X - m) 2 ] J* 

= (n - I)"' ¿ £(J, - z^) 2 - n£(3f - m) 2 ; 

L' = i 

pero por definición E(X¡ - /x) 2 = Var(J,) = or 2 y £(^ - ¡jl) 2 - Var(^) = or 2 /«. 
Por lo tanto 

E(S 2 ) = (n - 1)"' [na 2 - (n<r 2 )/n] 

<r\n - 1) 



= a 2 . 



En otras palabras, S 2 es un estimador insesgado de o- 2 sólo cuando el divisor es 
igual a n - 1 . Esta es la razón del por qué al determinar la varianza muestral se divide 
por n - 1 en lugar de dividir por n. El lector debe saber que este resultado no hará de 
S un estimador insesgado de cr (véase la sección 1 1.2.2).* 

8.2.2 Estimadores consistentes 

Es razonable esperar que un buen estimador de un parámetro 8 sea cada vez mejor 
conforme crece el tamaño de la muestra. Esto es, conforme la información en una 
muestra aleatoria se vuelve más completa, la distribución de muestreo de un buen es- 
timador se encuentra cada vez más concentrada alrededor del parámetro 0. Se 
tendrá un mejor estimador de d si se basa en 30 observaciones que si lo hace con 
sólo cinco. Esta idea origina lo que se conoce como un estimador consistente. 

Definición 8.3 Sea Tel estimador de un parámetro 6, y sea T,, T 2 T„ una se- 
cuencia de estimadores que representan a Tcon base en muestras de tamaño 1, 2 ... 

* Véase el material que lleva a la expresión (7.15) 
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n, respectivamente. Se dice que T es un estimador consistente (sencillo)* para si 

lím P(\T„ - d\ « e) = 1 - 

- ■, -.. n-» x 

para todos los valores de y e > 0. 

El requisito de que lím n _« P(\T„ - 6\ =£ e) = J para toda 6 constituye lo que se 
denomina convergencia en probabilidad. Es decir , N si un estimador es consistente, 
converge en probabilidad al valor del parámetro que está intentando estimar confor- 
me el tamaño de la muestra crece. Esto implica que la varianza de un estimador consis- 
tente T„ disminuye conforme n crece, y la media de T„ tiende hacia donde n crece. 
De esta forma, las condiciones que T n debe cumplir para ser un estimador insesgado 
de y para que Var(T„)—>0 conforme n— »«> son suñcientes (pero no necesarias) 
para que exista consistencia. Por ejemplo, la media muestral A' y la varianza 
muestral S 2 ^on estimadores consistentes de m y o- 2 , respectivamente. Para de- 
mostrar que X es un estin.udc. consistente de fi, primero se enunciará un impor 
tante *eorema conocido como desigualdad de Tchebysheff . 

Teorema 8.1 Sea X una variable aleatoria con una función (densidad) de probabili- 
dad /fo) de manera tal que tanto E(X) = /xcomoVariX) = o- 2 tienen un valor fi- 
nito. Entonces 



P(\X - ai| « k*)> 1 - - 2 



í_ 

k 2 



P(\X - fi\>ka)^ l2 



k 2 



para cualquier constante k s* 1. (Para la demostración de este teorema véase [3].) 

La desigualdad de Tchebysheff es muy importante, ya que permite determinar 
los limites de las probabilidades de variables aleatorias discretas o continuas sin te- 
ner que especificar sus funciones (densidades) de probabilidad. Este teorema de 
Tchebysheff asegura que la probabilidad de que una variable aleatoria se aleje no 
más de k desviaciones estándar de la media, es menor o igual a X/k 2 para algún valor 
de k : 5= 1 . Por ejemplo 

P(\X - ¡x\ =s 2o-) > 1 - \ 

4 

y 

P(\X - p.\ *£ 3o-) 5* 1 - I 
para cualquier variable aleatoria X con media fi y varianza a 2 finitas. 

* También puede definirse un estimador de error cuadrático consistente en forma tal que 
1 lím £"(7", - ef = 0, para toda 6, 

pero la idea de consistencia sencilla es una propiedad más básica. 



258 Estimación puntual y por intervalo 

Para demostrar que la media muestra! X„ , como función de una muestra alea- 
toria de tamaño n, es un estimador consistente de /u., se utilizará el resultado propor- 
cionado por el teorema 8.1. '--■'- - < 

Teorema 8.2 Sean X t , X 2 , ...,X„ n variables aleatorias IID, tales que E(X¡)_ = m 
y Var(X¡) = a* tienen un valor finito para i = 1,2, ..., n. Entonces X„ = 
27= i XJn es un estimador consistente de /li. 

Demostración: Se quiere demostrar que 

]ímP(\X n - fji\^e) = 1. 

Dado que X„ es una variable aleatoria tal que E{X„) = fi y Var(X„) = o- 2 /n,se 
deduce del teorema de Tchebysheff que 

P(\X n - n\>ko-/\/n)*Z]/k 2 . 

Sea k una constante positiva igual a e's/n/a, en donde e es un número real positivo. 
Entonces 

P(\X n - >i\>e)^^ 2 . 

Dado que o- 2 tiene un valor finito, tomando el límite de esta expresión conforme n 
tiende al infinito se tiene 

lím P(\X n - ju.| > e) = 0. 

n — ►^c 

Por lo tanto, se concluye que 

\imP(\X n - /*| « e) = 1, 

ff— »3C 

y X„ es un estimador consistente de /u.. 

El teorema 8.2 también se conoce como la ley de los grandes números. Ésta pro- 
porciona el fundamento teórico para estimar la media de la distribución de la pobla- 
ción con base en el promedio de un número finito de observaciones de manera tal 
que la confiabilidad de este promedio es mejor que la de cualquiera de las observa- 
ciones. Lo anterior permite determinar el tamaño necesario de la muestra para ase- 
gurar con determinada probabilidad que la media muestral no se alejará más allá de 
una cantidad específica de la media de la población. 

Ejemplo 8.2 Considere el proceso de selección de una muestra aleatoria de alguna 
distribución que tiene una varianza conocida de o -2 = 10 pero con una media /u. 
desconocida. ¿Cuál debe ser el tamaño de la muestra para que la media X„ se en- 
cuentre dentro de un intervalo igual a dos unidades, de la media poblacional con una 
probabilidad de, por lo menos, 0.9? 

Primero se desarrollará una expresión general para n. Del teorema 8.1, se sabe 
que 
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P(\X„ -^WV¡)? 1 -ji- :'^V 5íjV¿, ! (8.3) 

Elíjase un número positivo a de manera tal que «í = l/k^-o kJ=t^y/c¿^éa don 1 
de necesariamente < a < 1. Entonces* ! ' ? 'r :;{1 " r 

P(\X„ - ii\ * a/y/naj'i* I - a. '■■•"....'." " . "£ '.'. ".'(¿Áj 

Sea £ > la magnitud del máximo error permisible entre X„ y ¡x con base en una 
muestra de tamaño n. Entonces 



l\/na. (8.5) 



Resolviendo para n, se tiene 



o; 



n = —,. (8.6) 



Es claro que a = 0. 1 y £ = 2 para determinar los valores de n. Sustituyendo 
en (8.6), se tiene 

n = 10/(0.I)(4) 

= 25; 

de esta manera, si se selecciona una muestra que contenga por lo menos 25 observa- 
ciones de la distribución, el valor de la media se encontrará dentro de un intervalo 
con longitud de dos unidades con respecto a la media poblacional que tenga una pro- 
babilidad no menor que 0.9. El valor de probabilidad 0.9 asociado con esta afirma- 
ción en una medida de la confiabilidad con que se puede formular una inferencia 
respecto a \x. y con base en X. 

8.2.3 Estimadores insesgados de varianza mínima 

Para un parámetro que posee un error cuadrático medio mínimo es difícil determi- 
nar un estimador para todos los posibles valores del parámetro. Sin embargo, es po- 
sible analizar cierta clase de estimadores y dentro de esta clase intentar determinar 
uno que tenga un error cuadrático medio mínimo. Por ejemplo, considérese la clase 
de estimadores insesgados para el parámetro 0. Si una estadística T se encuentra 
dentro de esta clase, entonces E(T) = y ECM (7) = Var(T). Puesto que es desea- 
ble que la varianza de un estimador sea lo más pequeña posible, debe buscarse uno 
en la clase de estimadores insesgados, si es que éste existe, que tenga una varianza 
mínima para todos los valores posibles de 0. Este estimador recibe el nombre de esti- 
mador insesgado de varianza mínima uniforme (VMU) de 0. La definición formal 
de un estimador VMU es la siguiente. 

Definición 8.4 Sea X, , X 2 X„ una muestra aleatoria de una distribución cuya 

función (densidad) de probabilidad es /(.r; 0). Sea la estadística T = u(X t . A% 

X„) un estimador de tal que E{J) = y Var(T) es menor que la varianza de 



260 Estimación puntual y por intervalo 

cualquier otro estimador insesgado de0 para todos los posibles valores de d. Se dice 
entonces que Tes un estimador insesgado de varianza mínima de 6. 

La varianza de un estimador insesgado es la cantidad más importante para decidir 
qué tan bueno es el estimador para estimar un parámetro 0. Por ejemplo, sean T l y 
T 2 cualesquiera dos estimadores insesgados de 6. Se dice que T, es un estimador más 
eficiente de 6 quer 2 si Var(T,) =s Var(T 2 ), cumpliéndose la desigualdad en el sen- 
tido estricto para algún valor de 0. Es muy común utilizar el cociente Var (7", )/ Var 
(T 2 ) para determinar la eficiencia relativa de 7 2 con respecto a T,. Si los estimadores 
son sesgados, se emplean sus errores cuadráticos medios para determinar las eficien- 
cias relativas. 

¿Cómo obtener un estimador VMU, si es que éste existe? En muchos casos resul- 
ta prohibitivo determinar las varianzas de todos los estimadores insesgados de 6 y 
entonces se selecciona el estimador que tenga la varianza más pequeña. La búsqueda 
de un estimador VMU se facilita bastante con la ayuda de un resultado que recibe el 
nombre de cota inferior de Cramér-Rao, el cual se presenta en el siguiente teorema. 
Para una demostración de éste y otros detalles que incluyen algunas condiciones de 
regularidad, se invita al lector a que consulte [2]. 

Teorema. 8.3 Sea X, , X 2 X„ una muestra aleatoria de una distribución con 

una función (densidad) de probabilidad f(x; 0).Si T es un estimador insesgado de 
0, entonces la varianza de rdebe satisfacer la siguiente desigualdad 

VaiíT) ^ — — í — . (8.7) 



nE 



f dlnfjX; 8) Y 



El teorema 8.3 establece un limite inferior para la varianza de un estimador de 6. 
Sin embargo, lo anterior no necesariamente implica que la varianza de un estimador 
VMU de 6 tenga que ser igual al límite inferior de Cramér-Rao. En otras palabras, 
es posible encontrar un estimador insesgado de que tenga la varianza más pequeña 
posible de entre todos los estimadores insesgados de 6, pero cuyas varianzas son más 
grandes que el límite inferior de Cramér-Rao. Un estimador de esta clase sigue sien- 
do un estimador VMU de 0. Para un estimador insesgado cuya varianza se apega a 
la cota inferior de Cramér-Rao, se tiene la siguiente definición. 

Definición 8.5 Si Tes cualquier estimador insesgado del parámetro 6 tal que 

1 



Var(T) 



nE 



/ W(*;0) X2 



entonces se dice que Tes un estimador eficiente de 6. 

De esta forma, el estimador eficiente de 6 es el estimador VMU cuya varianza es 
igual al límite inferior de Cramér-Rao. El estimador eficiente de 0, si es que se puede 
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encontrar, es el mejor estimador (insesgado) de & en el contexto de la inferencia es-: 
tadistica clasica. 

Ejemplo 8.3 Sea X { , X 2 , ..., X„ una muestra aleatoria de una distribución de 
Poisson cuya función de probabilidas es p(x; X) = e~ k k x /x\. Obtener el estimador 
eficiente de X. x 

Dado que p{x; X) = k" exp( - \)/jc!, 

\np(x;k) = xln(X) - X - ln(jr!) 



I 



Entonces 



d ln p(x; k) _ x 
-dk ~k 



áln p(X\ k) 
dk 



(x - k)/k. 



E[(X - k)/k} 2 
= ¿ E(X - k) 2 

A. 
Var(X) 



pero si A' es una variable aleatoria de Poisson, VartX) = k. Lo anterior da como re- 
sultado 



¿ln p{X\ k) 
dk 



y, por la definición 8.5, la varianza del estimador eficiente de X es 

Var{T) = -i- = k/n = <r 2 /n, 
n/k 

en donde o- 2 = X es la varianza de la población. Por lo tanto, el estimador eficiente 
del parámetro X de Poisson es la media muestral X. 

Se concluirá esta sección sobre las propiedades deseables de los estimadores 
regresando al importante concepto de estadísticas suficientes. Este concepto es im- 
portante puesto que si existe un estimador eficiente, se encontrará que también es 
una estadística suficiente. 



8.2.4 Estadísticas suficientes 

De manera intuitiva, una estadística suficiente para un parámetro 6 es aquélla que 
utiliza toda la información contenida en la muestra aleatoria con respecto a . Por 
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ejemplo, supóngase que X u X 2 X x es una muestra aleatoria de 50 observa- 
ciones de una distribución gama con una función de densidad 

' />■ :>■'■ /(jc;2,0) = ^jcexp(-jc/0) x>0, 

en donde el parámetro de escala 0, > 0, es desconocido. Con una estadística sufi- 
ciente para 0, lo que se tiene es una manera de resumir todas las mediciones de los 
datos de la muestra en un valor en el que toda la información de la muestra con res- 
pecto a se encuentre contenida en este valor. Para este ejemplo, el estimador 

T= (X, + X¡ + ••• + X, 9 )/25 

¿contiene toda la información pertinente con respecto a 0? A pesar de que el estima- 
dor T proporciona un solo valor, no es posible que éste contenga toda la informa- 
ción muestral con respecto a 0, dado que se ha excluido la mitad de las observa- 
ciones. ¿Qué puede decirse acerca de la media muestral? Con toda seguridad ésta 
incluye todas las observaciones de la muestra aleatoria. ¿Significa esto que toda la 
información muestral con respecto a se extrae considerando a XI Se dice que una 
estadística T = u(X t , X 2 , ..., X„) es suficiente para un parámetro si la distribu- 
ción conjunta de X u X 2 , ..., X„, dado T, se encuentra libre de 0; es decir, si se 
afirma T, entonces X¡ , X 2 , ..., X„ no tiene nada más qué decir con respecto a 0. 
, La utilidad de una estadística suficiente recae en el hecho de qué si un estimador 
insesgado de un parámetro es una función de una estadística suficiente, entonces 
tendrá la varianza más pequeña de entre todos los estimadores insesgados de d que 
no se encuentren basados en una estadística suficiente. De hecho, si existe el estima- 
dor eficiente de 9, se encontrará que éste es una estadística suficiente. Un criterio 
para determinar una estadística suficiente está dado por el siguiente teorema, el cual 
se conoce como teorema de factorización de Neyman. 

Teorema 8.4 Sea X v X 2 , ...,X n una muestra aleatoria de una distribución con una 
función de densidad de probabilidad f(x; 8). Se dice que la estadística T = u{X u 

X 2 X^ es una estadística suficiente para $ si y sólo si la función de verosimilitud 

puede factorizarse de la siguiente forma: 

Uvi ,x 2 , v„ ; 6) = hU\d) #(.v, . x 2 .v„ ) 

para cualquier valor / = u(x t , .v 2 , ..., x„) de Tyen donde #U,, x 2 , ..., x„) no con- 
tiene al parámetro 6. 

Ejemplo 8.4 Sea X, . X 2 , . . . , X„ una muestra aleatoria de una distribución gama 
cuya función de densidad de probabilidad es 

/ (v: B) = FT^ *'" ' exp( -.v/0) x > 0, 
l(a)0 

y en donde el valor del parámetro de forma a es conocido. Obtener una estadística 
suficiente para el parámetro de escala t). 



I t 
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La función de verosimilitud es ^,, >,,.. 

LU„ jt 2 , ..., jt„; 0) = /U,; 0)f(x 2 ; 0) -f(x„; 0) 

,V|'' exp(-.v,/fl) • „, xna xr'exp(-x 2 /0) 



Ua)0" ' ' - - " ' r(a)r 

1 



Ha)»' 
1 



*r'exp(-.v„/0) 



ñvr'expf-ive) 



x i / ^ ,.\ njrr' 



r"(a)6" a * 
= /íí 2- v -;0j í?(-v, , -v 2 x„). 



Por el teorema 8.4, S" = , A - , es una estadística suficiente para 0. 

Supóngase, én el ejemplo 8.4, que se considera un estimador de de la forma 

T = — ¿ *,. (8.8) 

puede verse que T es una función de la estadística suficiente YX¡. 

Por lo tanto, T también es una estadística suficiente para 8 dado que la función de 

verosimilitud para el ejemplo 8.4, puede factorizarse como 

L(x,,x 2 , ...,x„) = h(t; 0)g(x u x 2 , ...,x„). 

en donde IX ¡ = naT y 

h(t;0) = -^exp(-nat/0). (8.9) 

Como resultado se tiene que se satisfacen las condiciones del teorema de factoriza- 
ción. De hecho, puede demostrarse que cualquier función uno a uno de una estadís- 
tica suficiente, también es suficiente. 

Ejemplo 8.5 Sea A - ,. A\ X„ una muestra aleatoria de una distribución de 

Poisson cuya función de probabilidad es 

p(x\ \) = \- v exp(-\)/jr! x = 0, 1,2 

Demostrar que el estimador eficiente de X es a su vez una estadística suficiente. 

DeJ ejemplo 8.3, recuérdese que el estimador eficiente de \ es la media muestral 
X. Se necesita demostrar que\ es una función uno a uno de una estadística suficien- 
te para X. La función de verosimilitud es 
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L(x,, x 2 , ..., x n ; X) = p(x¡; X) p(x 2 ; X) ••• p(x„; X) 

_ X J 'exp(-X) X?exp(-X) X J "exp(-X) 
*,! x 2 l x„\ 

n 

. = X sr ' u 'Texp(-nX)/n^! 



\ 


1 


3/2 


2 


5/2 


3 


P(2; X) 


0.1839 


0.2510 


0.2707 


0.2565 


0.2240 



Aparentemente p(2; X) crece hasta un valor máximo de 0.2707 para X = 2, y 
disminuye para X > 2. El valor de 2 de X es el que maximiza la probabilidad del va- 
lor observado. En otras palabras, la observación x = 2 tiene una probabilidad ma- 
yor de ocurrencia para una distribución de Poisson con X = 2 que para cualquier 



f. 



i 



= h(2xi-,k)g(x t , x 2 , ..., x„) ^ 

en donde * 

/i(Xr,;X) = X^'exp(-/iX). 

Por el teorema 8.4, la estadística 2" = , X¡ es suficiente para X. Dado que el estimador 
X es una función uno a uno de esta estadística, X también es suficiente para X. 



8.3 Métodos de estimación puntual 

En la sección anterior se mencionaron las propiedades deseables de un buen estima- 
dor. En esta sección se estudiará cómo obtener estimadores que, de manera general, 
tengan buenas propiedades. Específicamente se considerarán los métodos de máxi- 
ma verosimilitud y el de momentos. En el capítulo 13 se encontrará el método de 
mínimos cuadrados que se emplea para ajustar ecuaciones. 

8.3.1 Estimación por máxima verosimilitud 

Para introducir el concepto de estimación de máxima verosimilitud, piense en el si- 
guiente hecho. El desborde de ríos y lagos es un fenómeno natural que a veces tiene 
devastadoras consecuencias. Supóngase que en cierto año hubo dos serias inunda- 
ciones, por este fenómeno, en determinada región geográfica. Si se supone que el 
número de inundaciones por año en esta localidad es una variable aleatoria de Pois- 
son con un valor del parámetro X .desconocido, ¿cómo debe procederse para estimar 
el valor de X con base en una sola observación x = 2? Un posible método es selec- 
cionar el valor de X para el cual la probabilidad del valor observado es máxima. Es 
posible, para el valor observado, que X sea cualquier número positivo. Para propósi- 
tos de la presentación, supóngase que los posibles valores de X son 1, 3/2, 2, 5/2 y 3. 
Las probabilidades para el valor observado x = 2 para cada uno de estos valores de 
A son las siguientes: 



8.3 Métodos de estimación puntual 265 

otro valor del parámetro X. Puede demostrarse que el valor X = 1 es el que maximi- 
zaa X = 2 tomando la primera derivada de p{2; X) con respecto a X e igualándola 
a cero. Dado que ' 



se tiene 



p(2;X) = X 2 exp(-X)/2!, 



dp(2; \) 1 r , 

^ =-[-X 2 exp(-\) + 2Xexp(-X)] 



X exp( - X) 



(2-X). 



Igualando la primera derivada a cero se tienen las raices X = o X = 2. La segunda 
derivada con respecto a X da como resultado la expresión exp(- X)[l — 2X + 
(\ 2 )/2], cuyo valor para X = 2es-exp(-2) < 0. De esta forma, el valor x = 2 es 
aquél para el cual el valor de la probabilidad de la observación es máximo. Este va- 
lor recibe el nombre de estimador de máxima verosimilitud. 

En esencia, el método de estimación por máxima verosimilitud, selecciona como 
estimador a aquél valor del parámetro que tiene la propiedad de maximizar el valor 
de la probabilidad de la muestra aleatoria observada. En otras palabras, el método de 
máxima verosimilitud consiste en encontrar el valor del parámetro que maximiza 
la función de verosimilitud. 

Definición 8.6 Sea X¡, X 2 , . . . , X„ una muestra aleatoria de una distribución con 
función (densidad) de probabilidad f(x; 6), y sea L(x¡ , x 2 , ..., x„; 0) la verosimili- 
tud de la muestra como función de 6. Si t = u(x , , x 2 , . . . , x„ ) es el valor de para 
el cual el valor de la función de verosimilitud es máxima, entonces T = u(.X¡ , X 2 , . . . , X„ ) 
es el estimador de máxima verosimilitud de 0, y / es el estimador de máxima verosi- 
militud. 

El método de máxima verosimilitud (MV) tiene la propiedad (deseable) de pro- 
porcionar estimadores que son funciones de estadísticas suficientes, siempre y cuando 
el estimador MV sea único. Además, el método MV proporciona el estimador eficien- 
te, si es que existe. Sin embargo, los estimadores MV son generalmente sesgados. El 
procedimiento para obtener este tipo de estimadores es (relativamente) directo. Debi- 
do a la naturaleza de la función de verosimilitud se escoge, por lo común, maxi- 
mizar el logaritmo natural de L{0). Esto es, en muchas ocasiones es más fácil obtener 
el estimado MV maximizando lnL(0) que L(0). En los siguientes ejemplos se ilus- 
tra el método. 



Ejemplo 8.6 En un experimento binomial se observan X = x éxitos en n ensayos. 
Obtener el estimador de máxima verosimilitud del parámetro binomial p. 

En este caso la función de verosimilitud es idéntica a la probabilidad de que X = 
x\ de esta forma 

n\ 



Ux\ p) = 



(n - xV.xl 



P T (1 - P)" 



0« p « 1. 
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Entonces 

\nL{x;p) = ln(«!) - ln[(/i - x)l] -..ln(x!) + x ln(p) + (n - .x)ln(l - p). 

Para encontrar el valor de/7, para el cual lní, (x: p) tiene un valor máximo, se toma 
la primera derivada con respecto a p y se iguala a cero: 



d[\nL(x; p)] x (n - x) 



dp 



P (1 -p) 



= 0. 



Después de resolver para/7, se obtiene el estimador MV de p el cual recibe el nombre 
de proporción muestral X/n, y el estimado MV es x/n. Para confirmar que este valor 
maximiza a \nL(x; p), se toma la segunda derivada con respecto a/7 y se evalúa en 
x/n: 

d 2 [\nL(x; p)] _ np(l - p) + (x - np)(\ - 2p) 
dp 2 [p{\ - p)f 

y 

d 1 [\nL(x; p)] 



dp 2 



x/n 



(x/n) 2 [l - (x/n)] 



x/n< 1, 



lo que confirma el resultado, dado que la segunda derivada es negativa. Para un 
ejemplo específico, si se observan x = 5 con base en 25 ensayos independientes, el esti- 
mado MV de p es 5/25 = 0.2. 

Ejemplo 8. 7 Sea X U X 2 , . ■ ■ , X n una muestra aleatoria de una distribución normal 
con una función de densidad de probabilidad 

1 



f(x; fj.,o- ¿ ) = 

y/lna 

Determinar los estimadores de ¿i y a 2 . 



exp[-(* - M)72o- z ]. 



Para este problema se procederá de la misma forma que en el caso de un sol© pa- 
rámetro. Dado que la función de verosimilitud depende tanto de ¿i como de cr 2 , los 
estimados MV de /u, y a 2 son los valores para los cuales la función de verosimilitud 
tiene un valor máximo. De acuerdo con lo anterior 



L(x,, x 2 , ..., x„;i¿, o- 2 ) = — exp[ - (x¡ - fj.) 2 /2a 2 ] j=- 

\2tt(t yltra 



x e\p[-(x„ - ti) 2 /2a 2 ] 



= (27TO- 2 ) 



n/2 



exp 



1 
— i 2 tx; - (J.) 2 

2 <7 ,= l 



1 

\nL(x,, x 2 , ..., x„;ti, cr 2 ) = --ln(27r) - -ln(o- : ) --j^ (.v, - ¡x) 2 . 

2 2 2(7 , = l 
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Después de obtener las primeras derivadas parciales con respecto a \i y con respecto 
a o 2 e igualándolas a cero, se tiene 

-', a[ln¿(/t, o- 2 )] 2"^' ' 

y -_ ■ • 

I* d[lnL(/A,o- 2 )] n , 1 A ,2 A 

¡ ¿(cr 2 ) = ~2? + 2? ,?, <* - M) = °- 

Resolviendo la primera ecuación para fi, sustituyendo este valor en la segunda y re- 
solviendo para o- 2 , se tiene 

n 



* 2 = 2 (x, - x) 2 /n. 

A pesar de que no se verificará que estos valores maximizan la función de verosi- 
militud, ellos son los estimados MV de /¿ y o- 2 , respectivamente. Si existe alguna duda 
tómense las segundas derivadas. Sin embargo, dado que una función de verosimi- 
litud es el producto, ya sea de probabilidades o de densidades, éstas generalmente se 
encuentran acotadas y son continuas en los parámetros. En consecuencia, el resulta- 
do usual es que la solución de la primera derivada proporcionará el valor para el cual 
la función es máxima. 

Nótese que se ha introducido la acostumbrada notación "sombrero" ~ para de- 
notar un estimador MV. Se empleará esta notación cuando sea necesario. Nótese 
también que el estimador MV de <r 2 es sesgado, confirmándose de esta manera un 
í| comentario anterior en el sentido en el que los estimadores MV no necesariamente 

son insesgados. 

El método de máxima verosimilitud posee otra propiedad deseable conocida 
como propiedad de invarianza. Sea = u(X t , X 2 , ..., X n ) el estimador de máxima 
verosimilitud de 0. Si g(d) es una función univaluada de 6, entonces el estimador de 
máxima verosimilitud de#(0)es g(0). Por ejemplo, dado que, cuando se muestrea 
una distribución normal, el estimador MV de cr es 

a 2 = l - ¿ (x, ~ *) 2 , 

por la propiedad de invarianza, el estimador MV de la desviación estándar cr es 






a = 



1 Í (x, - x) 2 



1/2 
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Como ejemplo adicional de la propiedad de invarianza, el estimador MV de la fun- 
ción de confiabilidad Weibull es 

R(t) = exp[-(//0) a ], 
en donde 8 es el estimador MV del parámetro de escala 9. 

8.3.2 Método de los momentos 

Quizá el método más antiguo para la estimación de parámetros es el método de los * 

momentos. Éste consiste en igualar los momentos apropiados de la distribución de la 
población con los correspondientes momentos muéstrales para estimar un pará- 
metro desconocido de la distribución. 

Definición 8.7 Sea X, , X 2 , ..., X„ una muestra aleatoria de una distribución con 
f urH.ón (densidad) de probabilidad f(x; 9). El r-ésimo momento alrededor del cero 
se define como 

El método de los momentos proporciona una alternativa razonable cuando no se 
puedendeterminar los estimadores de máxima verosimilitud. Recuérdese que los pa- 
rámetros son, en general, funciones de los momentos teóricos. Por ejemplo, si la va- 
riable aleatoria X tiene una distribución gama (véase la sección 5.5), entonces 

fi = a9 (8.10) 

y 

H 2 = o(o + 1)0 2 . (8.11) 

Resolviendo (8.10) para a y sustituyendo en (8.11), se tiene 

a = fi/e (8.12) 

y 

fl (fl 



/r + fi9. 



= (/i; - /r)//¿- (8.13) 

Sustituyendo (8.13) para d en (8.12), se obtiene 

a = /x7(/4 - fl 2 ). (8.14) 

De esta forma, los dos parámetros de la distribución gama son funciones de los pri- 
meros dos momentos alrededor del cero. 
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En esencia, el método se implementa igualando tantos momentos muéstrales con 
los correspondientes momentos teóricos tantas veces como sea necesario para deter* 
minar un estimador de momentos para un parámetro desconocido. Por ejemplo.pof 
(8.13) y (8.14), los estimadores de momento de los parámetros gama y a sonsv 

x .: e = (M' 2 -X 2 )/X x , (8.15) 



5 = X 2 /{M' 2 - X 2 ), (8.16) 

respectivamente, en donde se emplea la notación de tilde ( T ) para denotar un esti- 
mador de momentos. Como ilustración adicional, recuérdese el ejemplo 4. 10. Se de- 
mostrará que los parámetros p y k de una distribución binomial negativa también 
son funciones de los primeros dos momentos alrededor del cero, ya que 

P = mA¿¿: - Pt 2 ) 



k = ti 2 /(ii' 2 - fi 2 - fi). 
Por lo tanto, los estimadores de momentos de p y k están dados por 

p = X/(M' 2 - X 2 ) (8.17) 

y 

k =X 2 /(M 2 -X 2 -X), (8.18) 

respectivamente. 

8.3.3 Estimación por máxima verosimilitud para muestras censuradas 

En algunas situaciones de muestreo, en forma especial en las pruebas de duración, el 
procedimiento de prueba puede terminar antes de proporcionar una muestra aleato- 
ria completa. En esta sección se considerará el principio de máxima verosimilitud 
para la estimación de parámetros desconocidos con base en este tipo de muestras, las 
cuales reciben el nombre de muestras censuradas o truncadas. En este contexto, 
las ideas se concentrarán, en forma exclusiva, alrededor de la noción de una prueba 
de duración. 

Una prueba típica de duración consiste en artículos iguales (tales como compo- 
nentes eléctricos o mecánicos) seleccionados en forma aleatoria de un proceso y ope- 
rados en un medio cuidadosamente controlado hasta que el artículo falla. En este 
caso, la medición de interés es el lapso de tiempo que cada unidad tarda en fallar. Si 
la prueba de duración se termina sólo cuando todas las unidades de la muestra han 
fallado, se dice que la muestra aleatoria de tiempos está completa. Sin embargo, por 
restricciones económicas y de tiempo, generalmente la prueba termina ya sea des- 
pués de un lapso de tiempo predeterminado x n o después de que falla un determina- 
do número de unidades m *£ n. Las dos condiciones producen muestras censura- 
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das. Si X es un lapso fijo de tiempo, el número de unidades que fallan de las n , des- 
de el comienzo de la prueba hasta el tiempo x , es una variable, aleatoria; ésta consti- 
tuye una muestra censurada de tipo I. .Sj¿/n¿§ fjjoy el tiempo determinación X m es la 
variable aleatoria, se dice que la muestra;,» de tipo II. Sin considerar la inferencia, 
existe muy poca diferencia entre estos dos tipos de muestras. De acuerdo con lo ante- 
rior, se restringirá la presentación al muestreo censurado de tipo II. 

Los datos muéstrales de una prueba de duración son los tiempos en los que se dio 
una falla. Por ejemplo, supóngase que la primera falla ocurrió en un tiempo igual a 
x, desde el comienzo, la segunda se presenta a x 2 desde el comienzo y así hasta que 
ocurre la /n-ésima falla en un tiempo por x m , en donde m ^ n es el número, fijado 
de antemano, necesario para terminar la prueba. Los tiempos que se observaron de falla 
jc, , x 2 , ..., x m constituyen una secuencia ordenada, porque x x *£ x 2 *£ ••• «£ x m . 
Nótese que en el momento en que se da por terminada la prueba, existen n - m uni- 
dades que todavía no han fallado; estas n - m unidades tienen un tiempo de supervi- 
vencia x m . Es claro que se tiene el tamaño completo de la mu-str" cuando m = n. 

Supóngase que los tiempos de duración de las unidades son variables aleatorias 
X u X 2 > . . . , X„ independientes exponencialmente distribuidas, con una función de densidad 



f{x;0) = -zxv(-x/0), 



x>o, >o. 



El interés recae en encontrar el estimador de máxima verosimilitud del parámetro 6. La 
función de verosimilitud para un muestreo censurado del tipo II es la probabilidad con- 
junta de que fallen m unidades en los tiempos x t , x 2 ,..., x m en ese orden, y sobrevivan 
n-m unidades con un tiempo de supervivencia igual a x m . La parte de la función de ve- 
rosimilitud que corresponde a las m unidades que han fallado en los tiempos jc, , x 2 , . . . , 
x m , es f(x t ; 6)f(x 2 ; 6) ■■■ f(x m ; 9). Pero ésta es sólo una de las posibles formas en que 
pueden fallar m unidades de un total de n. El número total de formas es nl/(n - m)\. 
La probabilidad de que n-m unidades sobrevivan un tiempo x m , está dada por la fun- 
ción de confiabilidad a tiempo x m ; de esta forma, para la distribución exponencial, 

P(X>x m ) = exp(-x m /0). 
Por lo tanto, la función de verosimilitud es 



L(x¡ , x 2 , ..., x m ; 0) 
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en donde; 

i ! ¡ \>'.'"-'J ■ ■ *:.p 1 ..' 

Tomando el logaritmo natural de L, se tiene 



T n, = ,E */ +-(".r~ m ^ 



lnL(.r,,.r 2 , ...,x„,\ 0) = ln(n!) - lnt(« - m)l] - m\n9 - -T m 

d 



i 



Entonces 



J[lnL(.r,, Ir,, '..., x„;0)] _ m J_ T 
</0 fl 2 "' 



e igualando la derivada a cero, el estimado de máxima verosimilitud de es 



2 -t, + (n - m)jc„ 



m. 



(8.21) 



Ejemplo 8.8 Las calculadoras científicas de bolsillo comúnmente disponibles con- 
tienen paquetes de batería que deben reemplazarse después de una cierta cantidad de 
tiempo de uso. Supóngase que de un proceso de producción se seleccionan, en forma 
aleatoria, 50 paquetes de baterías y se someten a una prueba de duración. Se decide 
terminar la prueba cuando 15 de los 50 dejan de funcionar de manera adecuada. Los 
tiempos observados, en orden, en los que ocurrió la falla, son 115, 119, 131, 138, 
142, 147, 148, 155, 158, 159, 163, 166, 167, 170 y 172. Si los anteriores valores son 
realizaciones de un conjunto de variables aleatorias independientes exponencialmen- 
te distribuidas, se debe obtener el estimado de máxima verosimilitud para 6. 

En este ejemplo, 

15 

n = 50, m = 15, % x¡ = 115 + 119 + ••■ + 172 = 2250, y x l} = 172. 
í= i 

Por lo tanto, por (8.21), 

2 2250 + (50 - 15)172 

= — = 551.33 horas. 
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8.4. Estimación por intervalo 

Para introducir la noción de una estimación por intervalo, supóngase que una tienda 
mantiene muy buenos registros con respecto al número de unidades de cierto pro- 
ducto que vende mensualmente. Para la compañía es muy importante conocer la de- 
manda promedio ya que con base en ésta se lleva a cabo el mantenimiento del inven- 
t -se- $~pó qt la daman^andel producto no se ve afectada por fluctuaciones 
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la media muestral es x = 200 unidades. En otras palabras, x - 200 es un estimado 
puntual de un parámetro desconocido, el cual representa la demanda promedio de 
este producto en la tienda. Este estimador, ¿implica que la demanda media descono- 
cida no sea mayor de 250 ni menor de 150? En este punto no es posible saberlo, ya 
que no se tiene ninguna indicación del posible error en el estimado puntual. El error 
en el estimado puntual se mide en términos de la variación muestral del correspon- 
diente estimador. 

Por ejemplo, supóngase que la desviación estándar de la media muestral X es 60 
unidades. De acuerdo con el teorema central del límite, puede argumentarse que 
X -> N(fi, 60), conforme n — > oc. De esta forma, la probabilidad de que X se en- 
cuentre dentro de dos desviaciones estándar alrededor de¿t. es de, aproximadamen- 
te, 0.95. En otras palabras, para n grande, 

P(\X - /¿| < 120) = 0.95, 
o 

P(- 120 <X - (i< 120) = 0.95. (8.22) 

Restando X y multiplicando por -1 en el interior de los paréntesis, se tiene 

P(X - 120 < fi < X + 120) = 0.95. (8.23) 

Si se sustituye el estimado para x = 200 A", se tiene 

A80 < fi < 320) = 0.95, (8.24) 

lo que sugiere que es enteramente posible que la demanda sea Jan grande como 250 
unidades o tan pequeña como 150 unidades, siempre que d.e.(X) = 60. Por otro la- 
do, supóngase que la desviación estándar de A" es igual a 10. Entonces, la expresión 
correspondiente a (8.23), es 



y para x = 200, 



P(X - 20 < fj. < X + 20) = 0.95, 



P(180 < fi < 220) = 0.95. 



En este caso es poco probable que n sea tan grande como 250 o tan pequeño como 
150. 

En ambos casos la clave para resolver el problema se encuentra en la desviación 
estándar del estimador puntual. En esencia, para la estimación del intervalo se consi- 
deran, tanto el estimador puntual del parámetro 0, como su distribución de muestreo, 
con el propósito de determinar un intervalo que, con cierta seguridad, contiene a 0. 

Para tener una mayor ¡dea acerca de la estimación por intervalo, es necesario in- 
terpretarel significado de (8.23) y (8.24). Dado que X es una variable aleatoria, el in- 
tervalo X - 120 a X + 120 es un intervalo aleatorio, y la probabilidad de que 
este intervalo contenga el valor verdadero de /¿ es de 0.95. En otras palabras, si se ob- 
tuviesen muestras del mismo tamaño en forma repetida de una población, y cada vez 
que éstas se seleccionan, se calculan los valores específicos para el intervalo aleatorio 
(X - 120, X + 120); entonces debe esperarse que un 95% de estos intervalos 
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contengan el valor de la media desconocida ¡i. Por otro lado, el intervalo específico entre 
80 y 320 no es más que una realización del intervalo aleatorio (X - 120, X + 120); 
con base en los datos de una sola muestra, en la que el estimado es j = 200. 
Dado que el valor de probabilidad de 0.95 se refiere sólo al intervalo aleatorio 
(X - 120, X + 120), es incorrecto decir que la probabilidad de que m se encuentre 
contenido en el intervalo (80, 320) es de 0.95. Esto e$, no puede asociarse ningún va- 
lor de probabilidad a la proposición 80 < ¡x < 320, debido a que ésta contiene sólo 
constantes. Sin embargo, la probabilidad de 0.95 para el intervalo aleatorio sugiere 
que la confianza en que el intervalo (80, 320) contenga el valor de la media descono- 
cida fi es alta. Sólo én este sentido se permite asignar un grado de confianza a 
la proposición 80 < \l < 320 igual a la probabilidad del intervalo aleatorio (X - 
120, X + 120); así, cuando se escribe 

P (80 < m < 320) = 0.95, 

no se está formulando ninguna proposición probabilística en el sentido clásico, sino 
más bien se expresa un grado de confianza. De acuerdo con lo anterior, el intervalo 
(80, 320) recibe el nombre de intervalo de confianza del 95% para ¡i. 

En términos generales, la construcción de un intervalo de confianza para un pa- 
rámetro desconocido consiste en encontrar una estadística suficiente T y rela- 
cionarla con otra variable aleatoria X* = f(T; 6), en donde A' involucra a pero 
la distribución de X no contiene a 6, así como tampoco a ningún otro parámetro des- 
conocido. Entonces se seleccionan dos valores x, y x 2 tales que 

P(x, <X<x 2 ) = 1 - a, 

en donde 1 — a recibe el nombre de coeficiente de confiaza. Mediante una manipu- 
lación algebraica de las dos expresiones, se puede modificar el contenido entre pa- 
réntesis y expresarlo como 

P[h,(T) <9< h 2 (T)) = 1 - a, 

en donde h,(T)y /i 2 (7)son funciones de la estadística 7y de esta forma, variables alea- 
torias. El intervalo de confianza para se obtiene sustituyendo en h t (T) y h 2 (T) 
los estimadores calculados a partir de los datos muéstrales, dando origen a lo que 
se conoce como intervalo de confianza bilateral. Al seguirse el mismo procedimien- 
to, también pueden desarrollarse intervalos de confianza unilaterales, de la forma 

P[g¿T) < 6) = 1 - a 
o 

pie < g 2 m] = i - a. 

El primero es un intervalo de confianza unilateral inferior para 9, y el segundo es un 
intervalo de confianza unilateral superior. 

A continuación se examinarán varias situaciones que involucran la construcción 
de intervalos de confianza para medias y varianzas poblacionales. Será aparente que 

* Este método recibe, en general, el nombre de método pivotal, y X se conoce entonces como variable 
aleatoria pivotal. 
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í 
la discusión aquí presentada tiene un fuerte parecido al material de las secciones 7.4 f 
tf7:8. .''.' ,-ilí-\ yr;-/'ir.r.v.Í5:3-./>^'.:!^!. .:>hs.,..."\' - , ■• * 

8.4.1 Intervalos de confianza para j*. cuándo se maestrea 
una distribución normal con varianza conocida 

Sea X { , X 2r ■■■, X„ una muestra aleatoria de una distribución normal con media 
desconocida p, pero con una varianza o- 2 conocida. El interés recae en la construcción 
de un intervalo de confianza de un 100(1 — a)% sobre p y en donde a es un núme- 
ro pequeño, tal que < a < 1 . La construcción de un intervalo de confianza se hace 
con base en el mejor estimador de p, explícitamente la media muestral X. 

Para ilustrar el enfoque fundamental para la construcción de intervalos de con- 
fianza, considérese la proposición probabilística dada por (8.22). Sumando p dentro 
de los paréntesis, se tiene 

P(p- 120 < X < p + 120) = 0.95. 

De esta forma, los límites p - 120 y p + 120 son funciones de los posibles valores 
de p. Por lo tanto, y en general, se puede escribir 

P[ gi {p)<X<g 2 (p)] = 1 - a,' (8.25) 

de manera tal que 

ftfl(M) 

i; p)dx = a/2 






i 



f(x; p)dx = a/2, 

en donde /(*; p) es la función de densidad de la distribución de muestreo de X, y 
g\(p)y giip) son funciones de p las cuales no contienen a ningún otro parámetro 
desconocido. _ 

De interés inmediato es la determinación de gi(p) y giip)- Dado que X ~ N(p, 
o~/\/n), la normal estándar Z = (X - p)/(o~/y/n), Y 



P[ gl (p)<X<g 2 (p)} = P 



gAp) - p < z c gi(p> - p 

<r/\Jn o-jyjn 



= 1 - a. (8.26) 



I 



Pero ya que P(z u/2 < Z < Z\- a/2 ) = 1 - a, en donde los valores cuantiles z a/2 
y Zi-„/2 son tales que P(Z< z n/2 ) = a/2 y P(Z<z,- u/2 ) = 1 - a/2, respectiva- 
mente, se sigue que 

g ' (M) r* = ^ a /2 (8-27) 



g 2 {p) _^l = ^ ^ (8 2g) 



o-, 



■Nn 
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Dando solución a (8.27) y (8.28) en términos de g\(fi} y g 2 (fi), respectívsímShte; 
se obtienen >"'3rt^!ttó ; .tícsftJfi£«{ 



£ 2 (/¿) = M + Zi-«/2-t=. (8.30) 

Dado que para lá normal estándar z a/2 = -Z|- a/2 , puede sustituirse ~Z\- a/2 para 
z a/2 en (8.29).-De acuerdo con lo anterior, pueden sustituirse las expresiones (8.29) 
y (8.30) para g t (fi) y g 2 (/¿), respectivamente, en (8.25) para obtener 

cr — cr 

-j=<X<fi + z t - a/2 —- 



H/t - z l -„ n —<X< t i + z,- a/2 — ) = l - a. (8.31) 



Al manipular las desigualdades que se encuentran dentro de los paréntesis en (8.31), 
se tiene 

PÍ X - Z| _ a/2 -^= < M < X + Zl _ a/2 -?p j = 1 - a, (8.32) 

que es una generalización de laproposición probabilística (8.23). La probabilidad de 
que el intervalo aleatorio de X - z ¡- a/2 (<r/V«) a X + z,- a/2 (cr/y/ñ) conten- 
ga el verdadero valor de la media m es 1 - a. Si se reemplaza la variable aleatoria 
X en (8.32) por el estimado x calculado a partir de los datos de una muestra de tama- 
ño n, un intervalo de confianza del 100(1 - a)% para ¡jl, es 

en donde x - Z\- a / 2 (cr/\/n) yx + Z\- a / 2 (o'/V") reciben el nombre de limites de 
confianza inferiores y superiores, respectivamente, para m- Esto es, el intervalo 
de confianza (8.33) es un intervalo estimado para /¿. 

Al examinar el intervalo de confianza para m dado por (8.33), es fácil, relativa- 
mente, observar que entre más grande es el tamaño de la muestra, más pequeño es el 
ancho del intervalo; o para un coeficiente de confianza 1 - a más grande, mayor 
es el ancho del intervalo. Ambos resultados son lógicos ya que un tamaño grande de 
la muestra disminuirá la varianza del estimador, y un coeficiente de confianza gran- 
de incrementa el valor cuantil dando como resultado un intervalo más amplio. 

Ejemplo 8.9 Los datos que a continuación se dan son los pesos en gramos del con- 
tenido de 16 cajas de cereal que se seleccionaron de un proceso de llenado con el pro- 
pósito de verificar el peso promedio: 506, 508, 499, 503, 504, 510, 497, 512, 514, 
505, 493, 496, 506, 502, 509, 496. Si el peso de cada caja es una variable aleatoria 
normal con una desviación estándar cr = 5 g, obtener los intervalos de confianza 
estimados del 90, 95 y 99%, para la media de llenado de este proceso. 
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Para un coeficiente de confianza del 90%, a = 0. 1 . El valor Z0.95 se obtiene de 
la tabla D del apéndice y es igual a 1.645, ya queP(Z > 1.645) = 0.05. Con base 
en los datos muéstrales, el valor de x es de 503.75 g. Entonces un intervalo de con- 
fianza del 90% para la media del proceso de llenado es 

s 
503.75 ± 1.645 



VÍ6' 

o de 501.69 a 505. 81. Los otros intervalos de confianza deseados se obtienen si- 
guiendo el mismo procedimiento. Los resultados se encuentran resumidos en la tabla 
8.1. 

En este momento se considerará un problema que es enteramente similar al del 
ejemplo 8.2. Supóngase que se especifica que el muestreo se efectúa sobre una 
población que tiene una distribución normal con media /¿ desconocida y varíanza 
o- 2 conocida. Se desea estimar el tamaño necesario deja muestra de manera tu. qv -, 
con una probabilidad de 1 = a, la media muestral X s** encuentre en un intervalo 
igual a e unidades alrededor de la media de la población /¿- La expresión (8.31) 
puede reescribirse como 

^(-z.-a/ 2 -7=<^-M<z.--./2'-7=) = 1 -«, (8-34) 

la cual da como resultado 

P(\X - fi\<é)= l - a 



en donde 



e = Zi-„/2— f. (8.35) 

Al resolver para n en (8.35) se obtiene el resultado deseado, 

n = ( £L f^) 2 (8.36) 

La única diferencia entre las expresiones (8.6) y (8.36) es que la primera se obtu- 
vo sin especificar la distribución de la población, mientras que para la segunda se su- 
puso que el muestreo se llevaba a cabo sobre una distribución normal. Por lo tanto, 
es razonable esperar, a pesar de que las dos expresiones sean iguales, que un valor de 
n obtenido mediante el empleo de (8.36) será mucho más pequeño que el correspon- 
diente valor que se obtiene mediante el empleo de (8.6), debido a que para (8.36) se 



TABLA 8.1 Intervalos de confianza para el ejemplo 8.9 

Confianza z, _„ ,. : Límite inferior Límite superior 

90% 1.645 501.69 505.81 

95% 1.96 501.30 506.20 

99% 2.575 500.53 506.97 
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formularon máp hipótesis. Para comparar, si se supone que se está muestreando una 
distribución normal, el tamaño de la muestra que corresponde a las condiciones da- 
das en el ejemplo, 8.2, podría ser ¿¡fe» 

: " V ' 0-645) 2 10 ^ ,li;! 

« = — ^—^ 7. 

comparado con el valor de n = 25 dado por (8.6). 

Desde el punto de vista de la aplicación, el hecho de que ambas expresiones ten- 
gan como hipótesis el conocimiento de la varianza de la población ar] constituye un 
requisito muy severo. Si no se conoce el valor de <r 2 debe usarse un estimado dea- 2- * 
que quizá pueda encontrarse en una muestra previa. Si este estimado no se encuentra 
disponible pero se conoce, en forma aproximada, el intervalo en el cual se en- 
cuentran las mediciones, una estimación muy burda de la desviación estándar es 
igual a la sexta parte del recorrido de las observaciones, ya que para muchas distri- 
buciones unimodales la gran mayoría de las observaciones se encontrarán dentro de 
un intervalo igual a tres desviaciones estándar, ya sea a la izquierda o la derecha 
de la, media. 

8.4.2 Intervalos de confianza para fi cuando se muestrea 
una distribución normal con varianza desconocida 

Se considerará el problema de encontrar un intervalo de confianza para^t, cuando 
se muestrea una distribución normal y para la cual no se tiene conocimiento acerca 
del valor de la varianza. De la sección 7.6, recuérdese que cuando se muestrea una 
N((i, ar), en donde tanto /x como o- 1 son desconocidos, la variable aleatoria 

X - Ul 

T = £ (8.37) 

tiene una distribución t de Student con n - 1 grados de libertad. Por lo tanto, es po- 
sible determinar el valor cuantil ¿i_ a/2 , n ~\ de T, para el cual 

P(-ti- a n.*-i<T<t i - a/2 , ll - i ) = 1 -«, (8- 38 > 

en donde el valor cuantil es tal que P( T < -/,_ a/2 . „_,) = a/2 y P(T < / t -„/2 .„ -i) 
= 1 - a/2. Al sustituir para Ten (8.38), se tiene 

X — ¡j. 



~< 'i-a/2. «-i I = 1 - a 



s/yjn 



S — s 

'i -a/2, n- I 7= < X — (l < /i_ a /2, „- 1 7= I = 1 

V" vV 
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Por lo tanto, el intervalo X-± t y _ a/1 „_ , (S/y/n) es un intervalo aleatorio y la 
probabilidad de que éste contenga el valor verdadero de fi, es 1 — c¡. De esta forma, 
dados los datos de una muestra aleatoria de tamaño n a partir de los cuales se calcu- 
lan los estimados x y s 2 , un intervalo de confianza del 100(1 - a)% para ¡i es 






x± /,-a/2. n -|-7=- (8-40) 



Con propósitos de ilustración y comparación, la tabla 8.2 lista los intervalos de con- 
fianza del 90, 95 y 99% para/n, con base en (8.40) y mediante el empleo de los datos 
del ejemplo 8.9, en donde x = 503.75 y s = 6.20. Nótese que para el caso que invo- 
lucra a la distribución t de Student, los intervalos son más amplios. 

8.4.3 Intervalos de confianza para la diferencia de medias cuando se 
maestrean dos distribuciones normales independientes 

Sean X u X 2 , ..., X nx y Y f , Y 2 , ..., Y nr dos muestras aleatorias de dos distribu- 
ciones normales independientes, con medias \l x y fi y y varianzas <j\ y ~\, respecti- 
vamente. Se desea construir un intervalo de confianza para la diferencia n x - p. Y . 
Supóngase que se conocen los valores de las varianzas. Entonces, de la sección 7.7, 
la variable aleatoria 

Z = * - ? ~ ( ^ ~ ^ (8.41) 

V n x n Y 
es N(Q, 1). De esta forma es posible encontrar el valor cuantil Z\~ an> tal que 

P(-z l - a/2 <Z<z í - a/2 ) = 1 - a. (8.42) 

Mediante la sustitución de (8.41) en (8.42) y después de manipular algebraica- 
mente las desigualdades, se tiene 




°> , a-y 

— + — < fJ-x ~ t¿r 
n x n Y 




<X - Y+ z,-„.-. — + — ) = \ - a, (8.43) 



TABLA 8.2 Intervalos de confianza para el ejemplo 8.9 



Confianz a /i-„/2. <,-i Límite inferior Límite superior 

90% I.753 501.03 506.47 

95% 2.131 500.45 507.05 

99% 2.947 499.18 508.32 
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que es un intervalo aleatorio que no contiene parámetros desconocidos. Al igual 
que en el caso de la sección 8.4.1, la variable aleatoria pivotal es la normal estándar 
Z. De acuerdo con lo anterior, un intervalo de confianza del 100(1 -. a)% para 




x-y±z t - a/2 f- + -, ' (8.44) 



en donde el valor cuantil z,- a/2 , es tal que P(Z < Z\- a/2 ) = 1 - a/2. 

Si las varianzas o* y a\ se desconocen pero son iguales, entonces la variable 
aleatoria 

T = X_~ Y- (f*-x ~ Mr) 



S P 






tiene una distribución / de Student con k = n x + n Y - 2 grados de libertad. 
Al seguir el procedimiento anterior, se tiene que un intervalo de confianza del 100( 1 
- á)% para i¿ x ~ i¿y, es 



y ± t,- a/2 . k s p /— + — , (8.45) 

*' n x n Y 



en donde el estimado combinado de la varianza común es 



2 _{.n x - \)s\ + {n r - l)sl 



s„ 



n x + n Y — 2 



Ejemplo 8. 10 Se piensa que los estudiantes de licenciatura de contaduría pueden 
esperar un mayor salario promedio al egresar de la licenciatura, que el que esperan 
los estudiantes de administración. Recientemente se obtuvieron muestras aleatorias 
de ambos grupos de un área geográfica relativamente homogénea, proporcionando 
los datos que se encuentran en la tabla 8.3. Determinar un intervalo de confianza 
unilateral inferior del 907b para la diferencia entre los salarios promedio para los es- 
tudiantes de contaduría y los de administración fx A - fj. Kt al egresar de la licenciatu- 
ra (suponga que las varianzas cr; y a-j, son iguales). 

A partir de los datos muéstrales dados, pueden calcularse las siguientes cantidades: 

n A = 10 fl „ = 14 

x A = 16 250 .v w = 15 400 

.s^ = 1 187 222.22 .si = 1 352 307.69 

.s;, = 1 284 772.73 

.v„ = 1133.48. 
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TABLA 8.3 Salarios anuales iniciales para recién graduados 



Contadores 



$16 300 
18 200 
17 500 

16 100 
15 900 
15 400 
15 800 

17 300 

14 900 

15 100 



Administradores 



$13 200 
15 100 

13 900 

14 700 

15 600 
15 800 

14 900 
18 100 

15 600 

15 300 

16 200 
15 200 

15 400 

16 600 



'I 



Entonces, un intervalo de confianza unilateral inferior del 90% está dado por 



_L J_ 

V n A n M 

en donde el valor / 9 , 2 = 1 .32 1 , ya que para la distribución / de Student, P(T < 
1.321) = 0.9. Al Sustituir los resultados numéricos, se tiene 



16 250 - 15 400 - (1.321X1133.48) J-j- + -p = 230.05. 



De esta forma, un intervalo de confianza unilateral del 90% para la diferencia real 
entre los salarios promedio es de $230.05. 

8.4.4 Intervalos de confianza para a 1 cuando se muestres 
una distribución normal con media desconocida 

Se examinará el problema de construcción de un intervalo de confianza para la va- 
rianza de la población cr : cuando se muestrea N(/x. a). De la sección 7.5, se recor- 
dará que bajo estas condiciones, la distribución de muestreo de (/; - l)S 2 /o- 2 es 
chi-cuadrada con n - 1 grados de libertad. Entonces es posible determinar los valo- 
res cuantiles Xü ,:. „ i y xi -.. ,:. „ - i. tales que 



X <",/: 



(/( - 1)5" 

< 2 < XÍ-../2. «- I 



(8.46) 



Puede expresarse (8.46) como 

1 
P — > 



> 



X«/:. «-i 



(n - 1)5- xT-a/2. » -i. 



= i - a. 



■-Í3Í&Í fes 
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Entonces el intervalo 



(n - 1)5- (n - 1)5" 



XT-i»/2. n- 



Xu/2,H-l 



es un intervalo aleatorio el cual contiene a o- 2 y a parámetros conocidos con 
una probabilidad de 1 - a. De esta forma, con base en los datos de una muestra 
aleatoria de tamaño n, se calcula el estimado s 2 y un intervalo de confianza del 
100(1 - a)% paraa 2 ,esde(/z- l)í7xf-a/2, n -,a(n - \)s 2 /xln. -■■ Es intere- 
sante notar que la variable aleatoria pivotal es (n - \)S 2 /cr 2 ya que su función de 
densidad, dada por (7. 16), no contiene ningún parámetro desconocido. 

Ejemplo 8.11 Un proceso produce cierta clase de cojinetes de bola cuyo diámetro 
interior es de 3 cm. Se seleccionan, en forma aleatoria, 12 de estos cojinetes y se mi- 
den sus diámetros internos, que resultan ser 3.01, 3.05, 2.99, 2.99, 3.00, 3.02, 2.98, 
2.99, 2.97, 2.97, 3.02 y 3.01. Suponiendo que el diámetro es una variable aleatoria 
normalmente distribuida, determinar un intervalo de confianza del 99% para la va- 
rianza cr 2 . 



i 



Dado que la confianza deseada es del 99%, a = 0.01 .De la tabla E del apéndice, 
los valores cuantiles Xo.«o.s. n y x«.w. M son 2.60 y 26.71, respectivamente. Para 
terminar, el valor calculado de la varianza muestral es s 2 = 0.0005455. Por lo tanto, 
un intervalo de confianza del 99% para o- 2 es 

(12 - 1)(0.0005455) (12 - 0(0.0005455) 



26.71 



2.60 



(0.0002246, 0.0023079). 



Como lo ilustra este ejemplo, el punto medio de un intervalo de confianza para 
una varianza no coincide con el valor del estimador puntual. Sin embargo, cuando 
se construye un intervalo simétrico como lo es el de la media cuando se muestrea una 
distribución normal, el punto medio del intervalo de confianza coincide con el esti- 
mador puntual. 



Iví 



8.4.5 Intervalos de confianza para el cociente de dos varianzas cuando 
se muestrean dos distribuciones normales independientes 

En el medio industrial muchas veces surge la necesidad de medir y comparar las va- 
riabilidades de dos procesos distintos. Supóngase que se tienen muestras aleatorias 
provenientes de dos distribuciones normales con medias y varianzas desconocidas. 
Sean n x y n Y ,el tamaño de las muestras y S x y S 2 y las varianzas muéstrales. El inte- 
rés se centra en construir un intervalo de confianza para el cociente o- y/al de las 
dos varianzas poblacionales. De la sección 7.8, se recordará que la variable aleatoria 
(Sx/o-x)/(S 2 Y /cri) tiene una distribución F con n x - I y n y - 1 grados de liber- 
tad. Entonces puede escribirse 
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P\a<lTrí<b) = 1 -a, (8.47) 



en donde a y b son los valores cuantiles inferior y superior de una distribución F tales 
que 

O = Wfl-a/2. n f -l. n x -\ Y O = f¡ _ a / 2 . „ x ~ |. n y - 1 • 

La proposición de probabilidad dada por (8.47) se puede expresar como 

/.| B <|f.4<M = i-« 

¿Y &X 



De esta manera, un intervalo de confianza del 100(1 - d)% para o- 2 r /al está dado 
por 

(as 2 r /sl,bs 2 r /s 2 x ). 

Para ilustrar, recuérdese el ejemplo 8.10. Supóngase que se desea un intervalo de 
confianza del 90% para cr¿/cri . De la tabla G, los valores cuantiles son 

a = I//0.95. ,3.9 = 1/3.05* = 0.328, 

" ~ /0.95, 9. 13 = 2.71. 

Ya que s\ = 1 187 222.22 y s¿ = 1 352 307.69, un intervalo de confianza del 
90% para el cociente cr¿/cri de las dos varianzas desconocidas es 

[(0.328)0 352 307.69)/ 1 187 222.22, (2.71)0 352 307.69)/ 1 187 222.22] 



(0.3736, 3.0868). 

8.4.6 Intervalos de confianza para el parámetro de proporción p 
cuando se muestres una distribución binomial 

El porcentaje de productos defectuosos de un proceso de manufactura es el baró- 
metro mas importante para medir la calidad del proceso para manufacturar un pro- 
ducto dado. Ya que un artículo puede estar defectuoso o no, el número de unidades 
defectuosas es una variable aleatoria binomial, si se supone una probabilidad cons- 
tante e independencia. En una muestra aleatoria de tamaño n el parámetro p que 
representa la proporción de artículos defectuosos es desconocido. Se desea determi- 

* Por interpolación. 



I 
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nar un intervalo de confianza parap. A pesar de que es posible determinar intervalos 
de confianza exactos para p (véase [2]), se optará por un intervalo de confianza ba- 
sado en una muestra grande. La razón de esta decisión tiene sus raices en el teorema 
5.1, el cual establece qué la distribución de una variable aleatoria binomial tiende 
hacia una normal cuando n tiende a infinito. 

Se demostró en el ejemplo 8.6 que el estimador de máxima verosimilitud de p, 
denotado por P, es 



P = X/n, 



(8.49) 



en donde A" es binomial con parámetros n y p. Nótese que P es un estimador insesga- 
dodep.yaque 



E(P) = -E(X) = np/n 
n 



P- 



1 1 varianza de P se puede obtener de la siguiente forma: 



VariF) = Var(X/n) 

= - 2 lnp(\ -p)] 



= Pd ~ p)/n. 



(8.50) 



Recuérdese que para n grande, la variable aleatoria (X - np)/yjnp(\ - p) es 
aproximadamente M0, 1). Entonces puede demostrarse que la distribución de 



W - P) 



(8.51) 



también tiende a N(0, 1) para n grande. De esta forma, la probabilidad del intervalo 
aleatorio 



P(l - P) 



-a/2 



P + z t 



¡P{\ - P) 



a/2 



(8.52) 



es, en forma aproximada, 1 — « para n grande. De acuerdo con lo anterior, un in- 
tervalo de confianza aproximado del 100 (1 - a)% para el parámetro de proporción 
A es 



/ P(l ~P) ~ _,_ Pd -P) 



(8.53) 



en donde el estimador de máxima verosimilitud p = x/n se obtiene de la muestra 
aleatoria de tamaño n. 
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Ejemplo 8.12 Un fabricante asegura, a una compañía que le compra un producto 
en forma regular, que el porcentaje de productos defectuosos no es mayor del 5%; 
La compañía decide comprobar lá afirmación del fabricante seleccionando, de su in- 
ventario, -200 unidades de este producto y probándolas. ¿Deberá sospechar la com- 
pañía de la afirmación del fabricante si se descubren un total de 19 unidades defec- 
tuosas eri la muestra? ;■■'■"' 

La sospecha estará apoyada si existe un intervalo de confiabilidad alta para el 
cual la proporción p se encuentra completamente a la derecha del valor asegurado 
0.05 . Se selecciona una confiabilidad del 95% . Dado que la realización de la variable 
aleatoria X es x = 19 y n = 20, el estimado de;? es 19/200 = 0.095. Al sustituir en 
(8.53), se tiene 



0.095 - 1.96 



0.095(1-0.095) 



200 



0.095 + 1.96 



/0.095(I- 0.095) 



ZOO 



el cual resulta ser (0.5436, 0.1356). Aparentemente existe una razón para sospe- 
char de la afirmación del fabricante, ya que el intervalo de confianza se encuentra 
completamente a la derecha del valor asegurado. 

Con respecto al muestreo de una distribución binomial, un problema que surge, 
en forma frecuente, es el de estimar el tamaño de la muestra necesario de manera tal 
que con una confiabilidad de 100(1 - á)% aproximadamente, el estimado del pa- 
rámetro de proporción se encuentre a no más de e unidades de p. Dado el estimador 
de máxima verosimilitud X/n y siguiendo el mismo procedimiento de la sección 
8.4.1, puede expresarse (8.52) como 



- P 



< e 



1 



en donde 



e = z 



1 -u/2 



Pd - P) 



*-s. 



Al resolver para n, se obtiene 



(8.54) 



Nótese que en la expresión anterior n es una función del valor deseado de p. 
Dado que éste no se conoce y, de hecho, es la cantidad que se está intentando estimar, 
lo que de manera general se hace es determinar el valor más conservador de n. Esto 
ocurre cuando la cantidad p(\ - p) es máxima. Pero puede demostrarse que para 
<p < 1,/?(1 — p) es un máximo cuando p = 1/2. En otras palabras, el valor/? = 
1/2 es el que debe emplearse para obtener el tamaño deseado de la muestra con base 
en (8.54). 

A manera de advertencia, los métodos presentados en esta sección deben usarse 
sólo cuando el tamaño de la muestra es suficientemente grande. De otro modo, de- 
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berán emplearse los intervalos de confianza exactos. A lo largo de estos lincamien- 
tos, de nuevo debe hacerse énfasis en que se supuso que el muestreo siempre se lleva- 
ba a cabo sobre una distribución normal. La construcción de intervalos de confianza 
para las varianzas es, en forma especial, sensible a esta hipótesis. Cualquier des- 
viación sustantiva de esta hipótesis significará una pérdida de la validez de la infe- 
rencia formulada con respecto a las varianzas. Por o(ro lado, los métodos para in- 
tervalos de confianza que involucran medias son, en forma relativa, inmunes a 
modestas desviaciones de la hipótesis de normalidad siempre y cuando el tamaño de 
las muestras sea grande. De esta forma, los métodos presentados de la sección 8.4.1 
a la 8.4.3, tienen una gran validez para muestras de gran tamaño, aun si el muestreo 
no se lleva a cabo sobre una distribución normal. 

Para ilustrar que el uso de la distribución t de Student sigue siendo válido para 
inferencias con respecto a las medias, aun a pesar de que se muestree una distribución 
que no es normal, se simuló el siguiente experimento mediante el empleo del paquete 
IMSL. Se generaron 1 000 muestras de tamaños 15, 30 y 50, a ^ar,.^ de una distribu- 
ción exponencial con parámetro 6 = I A . Ya que es la media de una variable alea- 
toria exponencialmente distribuida, se empleó (8.40) para calcular un intervalo de 
confianza del 95% para para cada muestra aleatoria y se contó el número de inter- 
valos que no contenían el valor supuesto de 10. Para n = 15 se encontró un total 
de 86 de estos intervalos; para n = 30 se tienen 68 y para n = 50 se encontraron 55. 

Si el muestreo se hubiese llevado a cabo sobre una distribución normal, se 
esperarían (0.05) (1 000) = 50 de estos intervalos, de entre 1 000. Parece ser que los 
resultados se acercan a los esperados bajo un muestreo de una distribución normal 
conforme aumenta el tamaño de la muestra aun a pesar de que ésta no provenga de 
una distribución normal. De acuerdo con lo anterior, el efecto que se tiene por una 
violación de la hipótesis de normalidad cuando se utiliza la distribución t de Student, 
parece ser pequeño, aun para un tamaño n relativamente modesto. 
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Hasta este momento se ha estudiado la inferencia estadística desde el punto de vis- 
ta de la teoría del muestreo, el cual se basa en la interpretación de la probabilidad 
como una frecuencia relativa. En esta sección se estudiará el enfoque bayesiano de la 
inferencia estadística y, en particular, a la estimación de parámetros. Recuérdese 
que el enfoque bayesiano se basa en la interpretación subjetiva de la probabilidad, el 
cual considera a ésta como un grado de creencia con respecto a la incertidumbre. El 
punto de vista bayesiano considera un parámetro desconocido como una caracterís- 
tica con respecto a la cual puede expresarse un grado de creencia que puede modifi- 
carse con base en la información muestral. Una inferencia con respecto al parámetro 
se formula con base en el grado de creencia modificado. En otras palabras, un pará- 
metro es visto como una variable aleatoria a la que, antes de la evidencia muestral, 
se le asigna una distribución a priori con base en el grado de creencia con respecto al 
comportamiento del parámetro aleatorio. Cuando se obtiene la evidencia muestral, la distri- 
bución a priori es modificada y entonces surge una distribución aposteriori. Es esta distribu- 
ción a posteriori la que se emplea para formular inferencias con respecto al parámetro. 
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El enfoque bayesiano para la estimación de parámetros ha sido favorecido por 
muchas personas, en forma especial en aquellas situaciones en las que un parámetro 
no puede considerarse, en forma real, como una cantidad fija. Por, ejemplo* es pro- 
bable que la verdadera proporción de artículos defectuosos que produce un proceso 
de manufactura fluctúe ligeramente, lo cual depende de numerosos factores, como 
se mostró en el ejemplo 6.9. Es probable que la verdadera proporción de casas que se 
pierden por concepto de hipoteca varíe dependiendo, en primer lugar, de las condi- 
ciones económicas. La demanda promedio semanal de automóviles también fluc- 
tuará como una función de varios factores incluyendo la temporada. 

8.5.1 Estimación puntual bayesiana 

En esta sección se considerará la determinación de estimadores puntuales baye- 
sianos. Dado que se considera a un parámetro como una variable aleatoria, se deno- 
tará a éste por el símbolo y con 9 a la realización de 6. Supóngase que 6 es una 
variable aleatoria continua* con una función de densidad (a priorí) incondicional 
/ e (0), la cual refleja la creencia a priorí con respecto a la incertidumbre de 0. 
La información muestral se encuentra representada por n variables aleatorias IID 
X t , X 2 , .., X„, con una densidad f(x \ 9) condicional común sobre la realización 
de 0. Del capítulo 7, la función de verosimilitud, condicional a un valor particular 
9, es 

L(x„ x 2 , ..., x„\9)= /(*, | 9)f(x 2 1 9) -f(x n | 0). (8.55) 

Es importante hacer énfasis en que aun cuando es una variable aleatoria, el obje- 
tivo es estimar el valor particular de 9 para el cual la evidencia muestral que repre- 
senta la función de verosimilitud se encuentra condicionada. Es decir, es una 
variable aleatoria no observable que puede tomar varios valores (entre ellos 9,) que 
deriven el resultado muestral. Mediante el empleo del teorema 6.2 y, en particular, 
de (6.24), la densidad aposteriori de dado el resultado muestral x = {x,, x 2 , ..., 
x,,} es 

A9\xJ= r L (xJO)U9) _ (8J6) 



Je 



9)f B (9)d9 



Se sabe que la densidad aposteriori f(6 1 x) representa el grado de creencia modifi- 
cado con respecto a la incertidumbre de O. Pero ¿cómo debe usarse la densidad a 
posteriori para obtener un estimador puntual de 91 Para este propósito, el enfoque 
bayesiano** toma en cuenta una función de pérdida, que representa la consecuen- 
cia económica resultante de haber escogido a/ = u(x ) como el valor estimado cuando 
el valor verdadero es 6. Esto es, la función de pérdida evalúa la pérdida económica 
cuando se dice que el valor de 6 es t, cuando éste es 9. Una función de pérdida, de- 
notada por l(t, 6) , es una función no negativa de t y 9 de tal forma que ésta es cero 

* Es más probable que un parámetro desconocido sea continuo que discreto, pero este último caso 
puede manejarse en forma similar. 
»» Para una presentación más completa del enfoque bayesiano se invita al lector a que consulte [6]. 
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sólo si t es igual a 6. Nótese que la función de pérdida depende del parámetro aleato- 
rio 0; por lo tanto, ésta también es una variable aleatoria. En este momento se está en 
condiciones de definir un estimador bayesiano. 

Definición 8.8 Sea f e (6) la función de densidad a priori de un parámetro 9, y 
L{x, , x 2 , ■ . . , x„ \ 6) la función de máxima verosimilitud de una muestra aleatoria de 
n variables aleatorias IID condicionadas sobre la realización de 6. Además, sea 
/(0 | x) la función de densidad aposteriori de 0, y sea l(t, 0) la función de pérdi- 
da. El estimador Bayes de 0, T = u(X t , X 2 , .... X n ), es aquél para el cual el valor 
esperado de la función de pérdida dada por 



JO 



es mínimo. 



En la definición 8.8 es claro que para determinar un estimador Bayes, debe espe- ? 

cificarse una función de pérdida. La especificación de esta última es una tarea difí- j 

cil, ya que las consecuencias económicas no son fácilmente medibles. En muchos j 

problemas de aplicación puede formularse un argumento razonable para utilizar una | 

función de pérdida de la forma. I 



/(/, «) = (/- 0?, (8.57) 

la cual se conoce como función de pérdida cuadrática o de error cuadrático. Para 
una función de pérdida cuadrática puede demostrarse que el estimador Bayes de 9 
es igual a la esperanza aposteriori £(0 | x ), de 0. En otras palabras, la media de la 
distribución a posteriori de 9 es el estimador Bayes de para una función de pérdi- 
da de error cuadrático. Nótese que ésta es una elección razonable para estimar el va- 
lor de la realización 6, ya que la media de una variable aleatoria es una medida de 
tendencia central y representa el centro de gravedad de la distribución de probabili- 
dad de la variable aleatoria. 

Ejemplo 8.13 Un vendedor distribuye sistemas estereofónicos, los cuales garantiza 
por un periodo de dos años. Con base en información previa, el vendedor piensa que 
la proporción de unidades que serán enviadas a servicio o a reemplazo durante el pe- 
riodo de dos años tiene un valor cercano a 0.04, aunque existen ligeras variaciones 
de este valor. El vendedor piensa asignar a priori una distribución beta a la propor- 
ción con parámetros a = 1 y /3 = 24. Con base en una muestra aleatoria de 25 
unidades, el vendedor observa dos unidades que necesitarán servicio o reemplazo 
durante el periodo de dos años. Suponiendo que el número de unidades que necesita- 
rán, ya sea servicio o reemplazo en una muestra fija de/i unidades, es una variable 
aleatoria binomial, obtener el estimador Bayes de la proporción. 

En el ejemplo 6.9, se demostró que, para las condiciones de este problema, la 
distribución a posteriori de la proporción también es una distribución beta con una 
densidad dada por (6.36). Denótese a la proporción aleatoria por P. Ya que los para- 
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metros de la densidad a posteriori de P son x + a y n + /3 - x, y mediante el 
empleo de (5.40), la media a posteriori. 

E(P\x)= * + " (8.58) 

n + a + p 

es el estimador Bayes de la realización/». Antes de calcular el valor del estimador, es 
conveniente comparar el estimador Bayes con el estimador de máxima verosimilitud 
x/n, que se obtuvo en el ejemplo 8.6. Nótese que el estimador Bayes coincide con el 
de máxima verosimilitud sólo si a = /3 = 0. Para este problema el resultado 
muestral para n = 25 es x = 2, y los valores de los parámetros apriori son a = 1 y 
(3 = 24. De esta forma, el estimador Bayes es (2 + l)/(25 + 1 + 24) = 0.06, 
y por comparación, el estimador MV es 2/25 = 0.08. 

Por lo tanto, es evidente que el estimador Bayes se encuentra influenciado tanto 
por el resultado muestral como por la distribución apriori. De hecho, puede decirse 
que si la distribución apriori tiene una varianza pequeña, lo que implica un alto gra- 
do de creencia con respecto a un parámetro aleatorio, entonces la media a posteriori 
tendrá un valor muy próximo a la media apriuñ. Supóngase, para el ejemplo 8.13, 
que los valores de a y (3 fuesen 2 y 48 en lugar de 1 y 24, respectivamente. En- 
tonces el valor de la media apriori debería ser igual al que se dio en 2/(2 + 48) = 0.04 
pero la varianza a priori debe ser, ahora, igual a 0.0007529, que es un valor más pe- 
queño que el anterior (0.0014769). El resultado es la media (2 + 2)/(25 + 2 + 48) 
= 0.0533 y se encuentra más cercano al valor de la media a priori que el estimado 
previo. Por otro lado, si la distribución apriori tiene una varianza muy grande, ésta 
debe ser virtualmente plana, lo cual implica que la creencia apriori con respecto a la 
incertidumbre de un parámetro aleatorio es vaga. En tal caso, la evidencia muestral 
debe tener mucho más peso en la distribución a posteriori que en la distribución a 
priori, y los estimadores de Bayes y MV deberán ser, virtualmente, los mismos. 

El tamaño de la muestra n también tiene influencia sobre la cercanía entre los es- 
timadores Bayes y MV. En general, los estimadores Bayes y MV diferirán entre sí 
por una cantidad que es pequeña cuando se compara con \/\/n. De esta manera, 
para tamaños de la muestra relativamente grandes ambos estimadores se encontra- 
rán muy cercanos el uno del otro. 

8.5.2 Estimación bayesiana por intervalo 

Se puede determinar un intervalo estimado para mediante el uso de la función de 
densidad a posteriori del parámetro aleatorio O. 

Definición 8.9 Sea f(0 | x) la función de densidad a posteriori de O condicionada 
sobre el resultado muestral t .v = {.v,, .v : , ..., a,,}, sean a y b límites tales que 

P(a < B < b | .r) = J f(0 | x)de = y. (8- s 9) 

en donde ay b son funciones del resultado muestral v. Entonces el intervalo (a, b) 
es un intervalo bayesiano tal, que la probabilidad de que 6 se encuentre contenido 
en (a, b) es y. 
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A diferencia de los intervalos de confianza de la sección 8.4, un intervalo baye- 
siano es, en efecto, un intervalo de probabilidad. En otras palabras, puede decirse 
que la probabilidad de que y se encuentre contenido en el intervalo a, b es 0, 
mientras que con un intervalo de confianza sólo puede decirse que una cantidad de 
100y% N de estos intervalos contendrán el valor real de 9. 

Para ejemplificar un intervalo de probabilidad bayesiano, sea A',, X 2 X„ la 

muestra aleatoria de una distribución normal con media ¡i desconocida y varianza 
o- 2 conocida. Supóngase que la media es un parámetro aleatorio al cual se piensa 
asignar una distribución normal a priori con una función de densidad 

1 , 

/mU) = /== expl -(fi - fí n )-/2cr ¿ ] - » < ¡i < *, 

o- \/2tt 

donde Mo y °o son la media y la varianza a priori, respectivamente. De la presenta- 
ción previa (vea:; e! ejemplo 8.7), la función de verosimilitud dada la realización fx 
es 

Ux t , x 2 , ..:,x„ I m) = (27ro- 2 )-" /: exp[-2(A:, - M ) 2 /2o- 2 ]. 

Entonces, puede demostrarse que la densidad a posteriori de la media condi- 
cionada sobre x también es normal con media 

£(M|x) = l,g fr + / T' (8-60) 

- . - n<r + o- 



y varianza 



Var(M\x) = T°"° 2 . (8.61) 



<T 



De esta forma, el estimador Bayes de fx para una función de pérdida o error cuadrá- 
tico está dada por (8.60). Al igual que en el ejemplo 8.13, nótese que un valor pe- 
queño de la varianza a priori ai proporcionará un estimador Bayes para /x mucho 
más cercano a la media a priori /íq. Además, para Mo y «o, fijas, conforme n crece 
el estimador de Bayes tiende al estimador de máxima verosimilitud x. 

Ejemplo 8.14 Recuérdese el ejemplo 8.9 en el que se determinaron los intervalos de 
confianza del 90, 95 y 99% para el llenado medio ll con base en los pesos de 16 cajas 
de cereal seleccionadas en forma aleatoria y en donde se supuso que los pesos esta- 
ban normalmente distribuidos con o- = 5 gr. Debido a pequeñas perturbaciones en 
el proceso de llenado, supóngase que el llenado medio es una variable aleatoria nor- 
malmente distribuida con media /x = 500 y desviación estándar o- = I . Determi- 
nar los intervalos de probabilidad bayesiana 0.9, 0.95 y 0.99 para ¡j.. 

Del ejemplo 8.9, .v = 503.75; entonces, mediante el uso de (8.60) y (8.61), los 
valores calculados de la media y la varianza a posteriori son 

' . , ( 16X1X503.75) + (500X25) <„,.,,. 
tiM] ^ = (16)(1) + 25 = 50L4634 






m 



m 
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v - iM ^ Ss;^ 



respectivamente. Dado que la densidad a posteriori de Af es W(501.4634, \A)-6098), 
y ya que para y =f 0.9, />(- 1.645 < Z < 1.645) = 0.9, en donde Z~ N(0, 1), se 
sigue de (8.59) que un intervalo de probabilidad 0.9 para y. que sea simétrico con 
respecto a la media a posteriori es - 



E(M\x) ± 1.645 VVar(M | x). 



De esta fo rma los lími tes son a = E(M \ x) - \M5\/Var(M \ x) y b = E(M \ 
x) + 1 M5\/Var(M \ x). Al sustituir los valores para E{M \ x) y y/VariM | x ), 
se obtiene el intervalo de probabilidad 0.9 (500.18, 502.75) para fi. De manera simi- 
lar, se calculan los intervalos bayesianos para y = 0.95 y y = 0.99. Éstos se en- 
cuentran resumióos en la tabla 8.4. Nótese que los intervalos de probabilidad baye- 
sianos se estrechan de manera más uniforme que los correspondientes intervalos de 
confianza del ejemplo 8.9. 
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En la sección 5.4 se mencionaron los limites estadísticos de tolerancia y se comentó 
su importancia para estimar la variabilidad de un producto. En esta sección se de- 
sarrollarán límites estadísticos de tolerancia cuando se muestrea una distribución no 
específica de probabilidad, o cuando el muestreo se lleva a cabo sobre una distribu- 
ción normal. Estos límites se conocen como limites de tolerancia independientes de 
la distribución debido a que ésta no se especifica. 

8.6.1 Límites de tolerancia independientes de la distribución 

Imagine un fenómeno aleatorio que involucre la fabricación de un cierto producto. 
Sea A" la variable de medición de este fenómeno, y sea f(x\ 6) la función de densidad 
de probabilidad de X, en donde es un parámetro fijo. 

Definición 8.10 Si D es la proporción de observaciones de la variable aleatoria que 
se encuentra entre los límites L, y L 2 , que son funciones univaluadas de las observa- 
ciones de manera tal que 

D = i f(x; 0)dx = F X (L 2 ; 6) - F X (L X \9), - (8.62) 

entonces L, y L 2 reciben el nombre de límites estadísticos de tolerancia. 
TABLA 8.4 Intervalos de probabilidad bayesiana para el ejemplo 8.14 





Probabilidad 


Límite inferior 


Límite superior 






0.9 

0.95 

0.99 


500.18 
499.93 
499.45 


502.75 
502.99 
503.47 


i 
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Ya que ¿, y ¿ 2 son funciones univaluadas de las observaciones, ellas mismas 
son variables aleatorias. A su vez, la proporción D es una variable aleatoria, y la. 
proposición de probabilidad , ,'-■•< ¡Vi' 1 "* 



P(D >d) = y 






tiene un significado que se interpreta como la probabilidad y de que la proporción 
dé valores en la distribución de X entre L, y L 2 no sea menoi que d. ' J 

Sean X (r) y A r ( „_ r+1) el r-ésimo valor más pequeño y el (n -r + l)-ésimo valor 
más grande, respectivamente, en una muestra aleatoria de tamaño n la cual invo- 
lucra a la variable de medición X. Se ha demostrado que la proporción de valores D 
que se encuentran entre ¿, = X (r) y L 2 = X (n _ r+)) tiene una distribución beta con 



parámetros a = n - 2r + 1 y ¡3 = 2r, sin importar la forma de la función de 
densidad de probabilidad de X, en donde ¿,y L 2 son de orden simétrico. De esta 
forma 



P{D > d) = 1 - F B {d; n - Ir + I, Zr) = 



y- 



(8.63) 



La expresión (8.63) es muy fuerte porque permite la determinación de limites 
estadísticos de tolerancia sin necesidad de especificar la distribución de la variable 
aleatoria A" de interés. Estos limites se conocen como límites de tolerancia indepen- 
dientes de la distribución. Nótese que la relación (8.63) involucra cuatro cantidades, 
n,r,dy y. Con el uso de las tablas beta el conocimiento de tres de ellas proporciona- 
rá el valor de la cantidad fáltame. 

El principal uso de (8.63) es determinar el tamaño más pequeño de la muestra de 
manera tal que con una probabilidad y por lo menos una proporción d de la distri- 
bución de X se encuentre incluida entre los dos valores extremos de la muestra, X w 
y X {n) . Esto es, para r = 1, (8.63) se reduce a 

P(D^d)= 1 -F B (d;n - 1,2) = y, 



la que puede simplificarse para obtener 

7=1- [nd n ~ 



(n - \)d n ], 



(8.64) 




lo que da como resultado una expresión en la que puede aparecer la función de 
distribución beta como una suma si uno de los parámetros de forma es un número 
entero pequeño (véase [1]). 

En la figura 8.2 se dan varias proporciones útiles de d en función del tamaño de 
la muestra n y la probabilidad y. Por ejemplo, si se obtiene una muestra de tamaño 
25 de una distribución con una función de densidad desconocida, la probabilidad de 
Que por lo menos el 80% de los valores de X se encuentren entre los dos valores 
extremos de la muestra es de 0.973. 

Muchas veces se buscan límites de tolerancia unilaterales de manera tal que la pro- 
babilidad de que por lo menos una proporción d de la distribución de X sea más 
grande de un límite de tolerancia inferior o menor que un límite de tolerancia supe- 
rior, sea y. Puede demostrarse, sin importar la distribución de X, que 



P(D^d) = 1 - F B (d; n - r + 1, r) = y. 



(8.65) 
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0.600 
0.500 



FIGURA 8.2 Proporciones d como funciones del tamaño de muestra n y probabilidad 7. 



Nótese que si r = I, la inferencia se formulará con base en el valor mas pequeño de 
la muestra, X m ; si r = n, la inferencia se formulará con base en el valor más grande, 
X {n) . Puede demostrarse que, para r = 1, la expresión (8.69) se reduce a 

P(D^d) = 1 - d n = y. 
De esta manera, al obtener el resultado para el tamaño de la muestra n, se tiene 



l m 



)og(l - y) 
logW) ' 



(8.66) 



La expresión (8.66) permite la determinación del tamaño necesario de la muestra 
para que con una probabilidad -y, por lo menos una proporción d de los valores de X 
sean más grandes que el valor más pequeño de la muestra. 



8.6 Límites estadísticos de tolerancia 293 

8.6.2 Limites lie tolerancia cuando se muestres una distribución normal 

En algunas situaciones la distribución de interés puede modelarse en forma ade- 
cuada por una distribución normal. En esta' sección, se examinarán los límites 
estadísticos de tolerancia para estas situaciones. 

Recuérdese que. los límites estadísticos de tolerancia colocan límites sobre las 
mediciones que se llevan a cabo sobre una distribución a diferencia de los intervalos 
de confianza, los cuales determinan a aquéllos donde es probable que se encuentre 
un parámetro desconocido. De esta forma, si el muestreo se lleva a cabo sobre una 
distribución N(h;<t) de manera tal que tantos como o- son conocidos, entonces, por 
ejemplo, los límites m ± 1.645o-, /¿ ± 1.96o-, y/i ± 2.575o- incluirán al 90, 95 y 
99% de la distribución, respectivamente. O para los límites unilaterales, el 90% de 
las observaciones de la distribución excederá el límite inferior de ¿i - 1 .28o-, y el 
99% será menor del límite superior ju, + 2.33o-. El único problema, con toda seguri- 
dad, es que no es muy común el conocer los valores de la media /x y la varianza o 2 . 

Supóngase que se consideran los estimadores X y S 2 . Dado que ambos son 
variables aleatorias y están sujetas a la variabilidad en el muestreo no es verdad 
decir, por ejemplo, que el 90% de la distribución estará contenido en el intervalo, 
X ± 1.6455. En forma alternativa, considere el intervalo aleatorio X ± kS^cn 
donde k es unaconstante apropiada perteneciente a la distribución conjunta de A' y 
S 2 . Dado que X ± kS son límites aleatorios, es imposible establecer con absoluta 
certeza qué porcentaje de la distribución estará contenido entre estos límites. En 
otras palabras, al igual que con los intervalos de confianza, no es posible encontrar 
un valor de k tal que los límites calculados, con base en alguna muestra aleatoria, 
siempre incluyan un porcentaje fijo de la distribución. Sin embargo, es posible selec- 
cionar un valor de k tal que si se obtienen en forma repetida muestras del mismo ta- 
maño de una distribución normal, proporción fija 7 de estos límites contendrá 
por lo menos un 100rf% de los valores de la distribución. Es decir, el intervalo alea- 
torio X ± kS tiene una probabilidad y de contener por lo menos un 100rf% de la 
distribución normal muestreada. Con base en una muestra aleatoria de tamaño n los 
limites de tolerancia bilateral de un 100y% para un porcentaje lOOrfde una distribu- 
ción normal son x ± ks, en donde y es el coeficiente de confianza y d es el alcan- 
ce de la distribución. La tabla H contiene valores de k para valores seleccionados de 
n, y, y d. 

Muchas veces sólo se tiene interés en los límites de tolerancia unilaterales. Por 
ejemplo, en la fabricación de pistones, si el diámetro se encuentra por debajo de 
cierta tolerancia, el pistón debe desecharse. Sin embargo, si el diámetro del pistón es 
mayor que cierta tolerancia, éste puede ser reprocesado hasta alcanzar un nivel acep- 
table. Como era de esperarse, los valores de k para los límites unilaterales no son 
iguales a los que se encuentran en la tabla H. Éstos se hallan en la tabla I del apéndi- 
ce para los valores de n, y, y d más frecuentemente utilizados. De acuerdo con lo an- 
terior, puede determinarse un valor de k tal que, con una confiabilidad del iOOy % 
de que por lo menos un 100</% de los valores de la distribución normal serán mayo- 
res que el límite de tolerancia inferior I - ks, o menores que el límite de tolerancia 
superior .v + »A.v. 
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Ejemplo 8.15 En un medio muy competitivo, la disponibilidad de un producto con 
respecto a la demanda es crucial para el éxito del negocio. Para determinar un limite 
de tolerancia superior para la demanda mensual de cierto producto, un centro co- 
mercial na recolectado lo que cree que es una muestra aleatoria dé las demandas 
mensuales y la cual consiste en los siguientes datos: 129, 142, 14S, 1S3, 136, 138, 
163, 151, 146, 128, 133, 148, 144, 140, 143. Si la demanda mensual de este producto 
se encuentra aproximada en forma adecuada por una distribución normal, determí- 
nese un límite de tolerancia superior con y = 0.99 y d = 0.95. 

Para y = 0.99, d = 0.95 y n = 15, se obtiene de la tabla I del apéndice un va- 
lor de k = 3.102. Con base en los datos, la media y la desviación estándar muestra! 
tienen un valor de x = 142.6 y s = 9.2798, respectivamente. El límite de tolerancia 
superior es 142.6 + (3.102)(9.2798) = 171.39. De esta forma, se tiene el 99% de 
confiabilidad, porque el 95% de toda la demanda será menor que 171.39 unidades 
por mes. En otras palabras, si este centro comercial almacena aproximadamente 172 
unidades del producto por mes, tendrá una alta seguridad de satisfacer la demanda 
mensual de este producto. 

De nuevo, debe hacerse énfasis en que los límites estadísticos de tolerancia de- 
sarrollados en esta sección se relacionan con el muestreo de una distribución normal. 
Si existe alguna duda con respecto a esta hipótesis, deberán utilizarse los límites de 
tolerancia independientes de la distribución que se estudiaron en la sección 8.6.1. Es 
razonable esperar que los límites de tolerancia independientes de la distribución sean 
más conservadores que aquéllos basados en la distribución normal, ya que se en- 
cuentra disponible una cantidad menor de información. 
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Ejercicios 

8.1. En un experimento binomial se observan x éxitos en n ensayos independientes. Se pro- 
ponen las siguientes dos estadísticas como estimadores del parámetro de proporción p: 
7, = X/n yT 2 = (X+ l)/(n + 2). 

a) Obtener y comparar los errores cuadráticos medios para T t y T 2 . 

b) Hacer una gráfica del ECM de cada estadística como funciones dep para n = 10 y 
n = 25. ¿Es alguno de estos estimadores uniformemente mejor que el otro? 



?;. 



Ejercicios 295 



8.2. Sea X¡ , X 2 , Xy, y X 4 una muestra aleatoria de tamaño cuatro de una población cuya 
distribución es exponencial con parámetro desconocido. Délas siguientes estadísticas, 

:f»llál*»c cnn pctimarlnrpc incMoa/ir\e H^ A9 



¿cuáles son estimadores insesgados de 0? 






7i = <*,- + 2* 2 + 3% + 4* 4 )/5 
7 3 = (A-, + * 2 + X) + X 4 )/4 . 



8.3. Demostrar que la estadística T v en el ejercicio 8.1, es un estimador consistente del pa- 
rámetro binomial p. 

8.4. Mediante el uso del teorema de Tchebysheff, demostrar que la estadística T T en el ejer- 
cicio 8.1, es un estimador consistente del parámetro binomial p. 

8.5. De entre los estimadores insesgados de dados en el ejercicio 8.2, determinar cuál es el 
que tiene la varianza más pequeña. ¿Cuáles son las eficiencias relativas de los demás es- 
timadores insesgados con respecto al que tiene la varianza más pequeña? 

8.6. Sea X r X v X v X¿ y X 5 una muestra aleatoria de una población cuya distribución es 
normal con media fi y varianza cr 2 . Considérense las estadísticas T, = (X, + X 2 + ■•■ 
+ X 5 )/5 y T z = (X, + X 2 + 2X¡ + X t + AT 5 )/6 como estimadores de fi. Identificar 
la estadística que posee la varianza más pequeña. 

8.7. Mediante el uso de la cota inferior de Cramér-Rao determinar la varianza del estimador 
insesgado de varianza mínima de cuando se muestrea una población cuya distribución 
es exponencial con una densidad f(x; ff) - (l/0)exp(-x/0), x > 0. Deducir que el 
estimador eficiente de es la media mués tr al. 

8.8. Sea X t , X 2 , ..., X„ una muestra aleatoria de una población cuya distribución es gama 
con parámetro de forma conocido. Demostrar que el estimador de máxima verosimili- 
tud para el parámetro de escala está dado por la expresión (8.8). 

8.9. Sea X,, X 2 , ..., X„ una muestra aleatoria de una población cuya distribución es de 
Poisson con parámetro X. Obtener el estimador de máxima verosimilitud de X. 

8. 10. Sea X¡ , X 2 , ..., X„ una muestra aleatoria de una población cuya distribución es expo- 
nencial con parámetro de escala 0. Obtener el estimador de máxima verosimilitud de 
y demostrar que éste es una estadística suficiente para 0. 

8. 1 1 . Sea X, , X 2 , . - . , X„ una muestra aleatoria de una población cuya distribución es la de 
Rayleigh, con densidad j\x\ cr) = 0r/cr)exp(-x 2 /2o- 2 ), x > 0. Obtener el estimador 
de máxima verosimilitud de cr 2 . ¿Es ésta una estadística para cr? 

8.12. De manera equivalente a la definición 8.7, se define el r-ésimo momento muestral con 
respecto a la media, como 

n 

2 (X, - XY 

M r = - , 

n 

en donde X u X 2 , ..., X„ es una muestra aleatoria. Empléense estos momentos para 
calcular los factores de forma muéstrales para los datos dados en el ejercicio 1.1. 



296 Estimación puntual y por intervalo 

MR- 

¿Puede formularse cualquier inferencia con respecto a la población de interés con base jf 

en los factores de forma? i M: 

8.13. Repetir el ejercicio 8.12 usando los datos proporcionados en el ejercicio 1.2. S 

8.14. La tabla 8.5 es una distribución de frecuencias para accidentes automovilísticos recaba- w 
da para un estudio en California.* Asumiendo que el número de accidentes es una va- & 
riable aleatoria binomialnegativa, úsese el método de momentos para estimar los para- ^' 
metros binomiales negativos k y p. Comparar las frecuencias que se observaron con ? 
aquéllas que se obtienen mediante el empleo de los valores estimadores de A: y de p. 

8.15. Los siguientes datos son una muestra aleatoria de duración en horas, que se observaron 
para un determinado componente eléctrico: 142.84, 97.04, 32.46, 69.14, 85.67, 114.43, 
41.76, 163.07, 108.22, 63.28. Supóngase que la duración de un componente es una 
variable aleatoria de Weibull con parámetro de forma a = 2. 

a) Obtener un estimador de máxima verosimilitud para el parámetro de escala 6. 

b) El método de momentos, ¿daría jn timador de diferente al que se obtuvo en la 
partea? 

c) Mediante el uso de su respuesta al inciso a, estimar la confiabilidad de este compo- 
nente para/ = 150 horas. 

8.16. Mediante el uso de su respuesta al inciso a del ejercicio 8.15, obtener el tiempo para el 
cual la conñabüidad del componente es de 0.95. 

8. 17. Los siguientes datos son tiempos de falla, ordenados en horas de diez componentes que 
fallarán de un total de 40 en una prueba de duración: 421, 436, 448, 474, 496, 499. 510, 
525, 593, 675. Supóngase que el tiempo de falla es una variable aleatoria exponencial- 
mente distribuida. 

a) Obtener un estimador de máxima verosimilitud para el parámetro 6. 

b) Úsese la respuesta de la parte a para estimar la confiabilidad de este componente 
para / = 4 000 horas. 

8.18. Una prueba de duración será terminada cuando fallen m < n unidades. Si el tiempo de 
falla es una variable aleatoria de Weibull con parámetro de forma conocido, obtener el 
estimador de máxima verosimilitud para el parámetro de escala d. 

*Mullivaríate analysis ofdríver accident frequenctes over a period of 14 years. California Department 
of Motor Vehicles, FHWA Project No. B0I49, 1975. 

TABLA 8.5 



Número de accidentes Número de conductores 

35,1)68 

1 13.411 

2 4.013 

3 1,184 

4 353 

5 93 

6 29 

7 8 

8 4 

9 o más 2 
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8.19. Se desea obtener un indicador del éxito financiero de ciertas tiendas que venden artícu- 
los especiales en los centros comerciales de una gran ciudad. Se selecciona una muestra 
aleatoria de 30 tiendas ubicadas en distintos centros comerciales y en donde el interés re- 
cae en el tiempo que éstas permanecen en operación. Se tendrá un dato significativo 
cuando se observen las primeras ocho tiendas que dejen de funcionar. Los siguientes da- 
tos son el tiempo en orden ascendente, de operación en meses: 3.2, 3.9, 5.9, 6.5, 16.5, 
20.3; 40.4, 50.9. Supóngase que el tiempo en el que permanece operando una tienda de 
esta clase es una variable aleatoria de Weibull con a = 0.8. 

a) Usando el resultado del ejercicio 8. 18, obtener el estimador de máxima verosimilitud 
para 0. 

b) Con base en la respuesta del inciso a, ¿cuál es la probabilidad de que una tienda per- 
manezca en operación después de haber transcurrido dos años de su apertura? ¿Des- 
pués de diez años? 

8.20. El tiempo total de procesamiento para programas en tarjetas perforadas de computado- 
ra se define como el tiempo que transcurre desde que se lee la primera tarjeta hasta que 
se imprime la última linea, y está constituido por tres componentes; el tiempo ¿' espera 
de entrada, el tiempo utilizado por el procesador central y el tiempo de espera de salida. 
Los siguientes datos son los tiempos totales de procesamiento, en minutos, para una 
muestra aleatoria de 15 programas similares: 12.5, 5.2, 6.8, 3.6, 10.9, 12.8, 7.8, 8.6, 6.3, 
6.9, 18.2, 15.4, 9.2, 10.3, 7.3. Supóngase que el tiempo total de procesamiento está mo- 
delado, en forma adecuada, por una distribución gama con a = 3. 

a) Obtener el estimador de máxima verosimilitud para el parámetro de escala 6. 

b) El método de momentos, ¿daria un estimado diferente de 6 al determinado en el in- 
ciso al 

c) Mediante la respuesta del inciso a), calcular la probabilidad de que el tiempo de pro- 
cesamiento sea mayor a 20 minutos. 

8.21. Un fabricante de fibras sintéticas desea estimar la tensión de ruptura media de una ¡ \ 
fibra. Diseña un experimento en el que se observan las tensiones de ruptura, en libras, 
de 16 hilos del proceso seleccionados aleatoriamente. Las tensiones son 20.8, 20.6, 21.0, 
20.9, 19.9, 20.2, 19.8, 19.6, 20.9, 21.1, 20.4, 20.6, 19.7, 19.6, 20.3 y 20.7. Supóngase 
que la tensión de ruptura de una fibra se encuentra modelada por una distribución nor- 
mal con desviación estándar de 0.45 übras. Construir un intervalo de confianza estima- 
do del 98% para el valor real de la tensión de ruptura promedio de la fibra. 

8.22. Con referencia al ejercicio 8.21, ¿cuáles de las siguientes proposiciones son apropiadas 
papra la interpretación del intervalo de confianza? 

a) En la probabilidad de que la tensión promedio verdadera se encuentre, los límites de 
confianza son de 0.98. 

b) Aproximadamente el 98%, de todos los intervalos de confianza calculados con base 
en repetidas muestras de tamaño, 16 obtenidas en el proceso de fabricación de las 
fibras incluirán el verdadero valor promedio de la tensión de ruptura. 

c) La probabilidad de que la tensión de ruptura para cualquier fibra se encuentre fuera 
de los límites de confianza es 0.02. 

8.23. Mediante el empleo de los métodos de la sección 5.9, genere 100 muestras, cada una de 
tamaño 16, de una distribución normal con media 100 y desviación estándar 10. Para 
cada muestra, construyase un intervalo de confianza del 95% para m- ¿Cuántos de estos 
intervalos contienen el verdadero valor de 100 paraM-' Véase el ejercicio 8.36. 
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8.24. Una tienda de donas se interesa en estimar su volumen de ventas diarias. Supóngase que 
el valor de la desviación estándar es de $50. 

a) Si el volumen de ventas se encuentra aproximado por una distribución normal, ¿cuál 
debe ser el tamaño de la muestra para que con una probabilidad de 0.95 la me- 
dia muestral se encuentre a no más de $20 del verdadero volumen de ventas prome- 

,\ .dio? . . > : 

b) Si no es posible suponer que la distribución es normal, obtener el tamaño necesario 
de la muestra para la pregunta a. 



8.25. Con referencia al ejercicio 8.24, generar 100 muestras, cada una de tamaño igual al de- 
terminado en el inciso a, de una distribución normal con media y desviación estándar 
iguales a 400 y 50, respectivamente. Calcular la media muestral para cada muestra. 
¿Cuántas medias muéstrales se encuentran a no más de $20 del valor conocido de /¿? 
¿Está su respuesta de acuerdo con lo que se esperaba? 

8.26. Se piensa que la diferencia entre el sueldo más bajo y el más alto que se paga por hora a 
los mecánicos de automóviles es de $9. Si se supone que estos sueldos se encuentran, en 
forma aproximada, distribuidos según un modelo normal, ¿cuál debe ser el tamaño de 
la muestra para que con una probabilidad de 0.99 la media muestral se encuentre a no 
más de un dólar del verdadero salario por hora promedio? Contéstese la misma pregun- 
ta sin suponer una distribución normal. 

8.27. La Cámara de Comercio de una ciudad se encuentra interesada en estimar la cantidad 
promedio de dinero que gasta la gente que asiste a convenciones, calculando comidas, 
alojamiento y entretenimiento por día. De las distintas convenciones que se llevan a 
cabo en la ciudad, se seleccionaron 60 personas y se les preguntó la cantidad que gasta- 
ban por día. Se obtuvo la siguiente información en dólares: 150, 175, 163, 148, 142, 189, 
135, 174, 168, 152, 158, 184, 134, 146, 155, 163. Si se supone que la cantidad de dinero 
gastada en un día es una variable aleatoria distribuida normal, obtener los intervalos de 
confianza estimados del 90, 95 y 98% para la cantidad promedio real. 

8.28. Con referencia al ejercicio 8.21, determinar el intervalo de confianza estimado del 98% 
para la tensión de ruptura promedio sin suponer que se conoce la desviación estándar de 
la población. ¿Cómo es este intervalo comparado con el que se obtuvo en el ejercicio 
8.21? 

8.29. Para verificar la sensititividad de la distribución t de Student con respecto a la suposi- 
ción de que se muestrea una distribución normal, generar 100 muestras aleatorias cada 
una de tamaño 10 de una distribución exponencial con = 20. Para cada muestra, 
construir un intervalo de confianza estimado del 95% para la media. ¿Cuántos de estos 
intervalos contienen el valor medio conocido de = 20? Repetir el proceso incremen- 
tando el tamaño de la muestra a 30. ¿Existe alguna diferencia? Formular un comentario 
con respecto a sus resultados. Véase el ejercicio 8.37. 

8.30. Una muestra aleatoria de los salarios por hora para nueve mecánicos de automóviles 
proporcionó los siguientes datos (en dólares): 10.5, 11,9.5, 12, 10, 11.5, 13,9,8.5. Bajo 
la suposición de que el muestreo se llevó a cabo sobre una población distribuida normal, 
construir los intervalos de confianza estimados del 90, 95 y 99% para los salarios por 
hora promedio para todos los mecánicos. Interpretar los resultados. 

8.31. Dos universidades financiadas por el gobierno tienen métodos distintos para inscribir a 
sus alumnos a principios de cada semestre. Las dos desean comparar el tiempo prome- 



Ejercicios 299 

dio que les toma a los estudiantes completar el trámite de inscripción. En cada universi- 
dad se anotaron los tiempos de inscripción para 100 alumnos seleccionados al azar. Las 
medias y las desviaciones estándares muéstrales son las siguientes: 

•-■■• ^^ ■■■■»■•"■-><>,! Vjf, = 50.2 ■■- xi= 52.9 

X s, = 4.8 s 2 = 5.4 

Si se supone que el muestreo se Uevó a cabo sobre dos poblaciones distribuidas normales 
e independientes, obtener los intervalos de confianza estimados del 90, 95 y 99% para la 
diferencia entre las medias del tiempo de inscripción para las dos universidades. Con 
base en esta evidencia, ¿se estaría inclinando a concluir que existe una diferencia real 
entre los tiempos medios para cada universidad? 

8.32. Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un 
nuevo proceso en el que se añade una aleación a la producción del metal. Los fabrican- 
tes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de 
ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 
12 especímenes y cada uno de éstos se somete a una tensión hasta que se rompe. La si- 
guiente tabla muestra las tensiones de ruptura de los especímenes en kilogramos por 
centímetro cuadrado: 



Proceso 
estándar 


428 


419 


458 


439 


441 


456 


463 


429 


438 


445 


441 


463 


Proceso 
nuevo 


462 


. 448 


435 


465 


429 


472 


453 


459 


427 


468 


452 


447 



f I Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e inde- 

pendientes con varianzas iguales, obtener los intervalos de confianza estimados del 90, 
95 y 99% para ¿¿5 _ Mw • Con base en los resultados, ¿se estaría inclinado a concluir 
que existe una diferencia real entre Ms y M/v? 

8.33. En dos ciudades se llevó a cabo una encuesta sobre el costo de la vida para obtener el 
gasto promedio en alimentación en familias constituidas por cuatro personas. De cada 
ciudad se seleccionó aleatoriamente una muestra de 20 familias y se observaron sus gas- 
tos semanales en alimentación. Las medias y las desviaciones estándares muéstrales 
fueron las siguientes: 

x, = 135 X, = 122 

i, = 15 s 2 = 10 

Si se supone que se muestrearon dos poblaciones independientes con distribución nor- 
mal cada una, y varianzas iguales, obtener los intervalos de confianza estimados del 95 
y 99% para m p - M: • ¿Se estaría inclinado a concluir que existe una diferencia real entre 
Mi y M:? 

8.34. Se espera tener una cierta variación aleatoria nominal en el espesor de las láminas de 
plástico que una máquina produce. Para determinar cuándo la variación en el espesor se 
encuentra dentro de ciertos límites, cada día se seleccionan en forma aleatoria 12 lami- 
nas de plástico y se mide en milímetros su espesor. Los datos que se obtuvieron son los 
siguientes: 12.6, 11.9, 12.3, 12.8, 11.8, 11.7, 12.4, 12.1, 12.3, 12.0, 12.5, 12.9. Si se su- 
pone que el espesor es una variable aleatoria distribuida normal, obtener los intervalos 



al' 



300 Estimación puntual y por intervalo 

de confianza estimados del 90, 95 y 99% para la varianza desconocida del espesor. Si no 
es aceptable una varianza mayor de 0.9 mm, ¿existe alguna razón para preocuparse con 
base en esta evidencia? ■•■, : t , ,, r 

8.35. Mediante el uso de los datos del ejercicio 8.27, obtener un intervalo de confianza esti- 
mado del 95% para la varianza desconocida e interpretar el resultado. 

8.36. Con referencia al ejercicio 8.23, construir para cada muestra un intervalo de confianza 
del 95% para o- 2 . ¿Cuántos de estos intervalos contienen el valor conocido de 100 para 
o- 2 ?¿Este resultado está de acuerdo con lo que se esperaba? 

8.37. Para verificar la sensitividad de la distribución chi-cuadrada con respecto a la supo; ;^I 
ción de que se muestrea una distribución normal, repetir el ejercicio 8.29 construyendo 
para cada muestra un intervalo de confianza estimado del 95% para cr 1 . En relación con 
los dos tamaños de las muestras, ¿cuántos de estos intervalos contienen el valor conoci- 
do de o- 2 = 400? Con base en estos resultados, comparar las sensitividades de las distri- 
buciones / de Student y chi-cuadrada con respecto a la hipótesis de un muestreo que se 
lleva a cabo sobre una distribución normal. 

8.38. Una agencia estatal tiene la responsabilidad de vigilar la calidad del agua para la cria de 
peces con fines comerciales. Esta agencia se encuentra interesada en comparar la va- 
riación de cierta sustancia tóxica en dos estuarios cuyas aguas se encuentran contamina- 
das por desperdicios industriales provenientes de una zona industrial cercana. En el pri- 
mer estuario se seleccionan 1 1 muestras y en el segundo 8, las cuales se enviaron a un 
laboratorio para su análisis. Las mediciones en ppm que se observaron en cada muestra 
se exponen en la tabla 8.6. Si se supone que el muestreo se hizo sobre dos poblaciones 
independientes distribuidas normales, obtener un intervalo de confianza estimado del 
95% para el cociente de las dos varianzas no conocidas o-\/o\. Con base en este resulta- ¿¡j 
do, ¿se podría concluir que las dos varianzas son diferentes? ¿Por qué? 

8.39. Con referencia al ejercicio 8.32, construir un intervalo de confianza estimado del 99% 
para el cociente <r\/a\ , en donde a] es la varianza del proceso estándar y a\ es la va- 
rianza del nuevo proceso. Con base en este resultado, ¿es razonable la suposición de que 
las varianzas son iguales? 

8.40. La lista electoral final en una elección reciente para senador, reveló que 1 400 personas 



TABLA 8.6 Niveles de una sustancia tóxica 
(ppm) 
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' de un total de 2 500 seleccionadas aleatoriamente, tienen preferencia por el candidato A 
con respecto al candidato B. 

a) Obtener un intervalo de confianza unilateral inferior del 99% para la verdadera pro- 
porción de votantes a favor del candidato Á. Coli'base en este resultado,' ¿podría us- 
ted afirmar que es probable que A gane la elección? ¿Por qué? 

b) Supóngase que se selecciona aleatoriamente una muestra de 223 personas con la mis- 
ma proporción muestral a favor del candidato A. ¿Son los resultados diferentes a los 
del inciso a)? 

c) En este caso, ¿son razonables las suposiciones para los intervalos de confianza apro- 
ximados del 99%? 

8.41 . Se recibe un lote muy grande de artículos proveniente de un fabricante que asegura que 
el porcentaje de artículos defectuosos en la producción es del 1%. Al seleccionar una 
muestra aleatoria de 200 artículos y después de inspeccionarlos, se descubren 8 defec- 
tuosos. Obtener los intervalos de confianza aproximados del 90, 95 y 99% para la verda- 
dera proporción de artículos defectuosos en el proceso de manufactura del fabricante. 
Con base en estos resultados, ¿qu' se puede concluir con respecto a la afirmación del 
fabricante? 

8.42. Un médico investigador desea estimar la proporción de hombres, en edad madura, que 
fuman en exceso y que desarrollarán cáncer pulmonar en los siguientes cinco años. El 
investigador desea seleccionar una cierta cantidad de hombres que hayan fumado por lo 
menos dos cajetillas de cigarros al día durante 20 años y observarlos durante los próxi- 
mos cinco años para saber cuántos desarrollan cáncer pulmonar. ¿Cuál debe ser el ta- 
maño de la muestra que el investigador debe seleccionar de manera tal que con una pro- 
babilidad de 0.95, la proporción muestral se encuentre a no más de 0.02 unidades de la 
proporción verdadera? 

8.43. Las compañías de auditoría generalmente seleccionan una muestra aleatoria de los clien- i | j 
tes de un banco y verifican los balances contables reportados por el banco. Si una ! 
compañía de este tipo se encuentra interesada en estimar la proporción de cuentas para 
las cuales existe una discrepancia entre el cliente y el banco, ¿cuántas cuentas deberán 
seleccionarse de manera tal que con una confiabilidad del 99% la proporción muestral 
se encuentre a no más de 0.02 unidades de la proporción real? 

8.44. El volumen semanal de ventas de una tienda de descuentos se encuentra representado, 
en forma adecuada, por una distribución normal con media desconocida ¡i, pero con 
una desviación estándar de o- = $2 000. Debido a muchas influencias de índole menor, 
se cree que el volumen de ventas semanal promedio puede considerarse como una va- 
riable aleatoria. Supóngase que se está pensando asignar una distribución normal a la 
media semanal con /jl„ = $20 000 y a-„ = $200. Una muestra aleatoria de 16 semanas 
revela un volumen de ventas promedio muestral de $21 500. 

a) Para una función de pérdida de error cuadrático, obtener el estimador Bayes de m- 

b) Obtener un intervalo estimado de probabilidad bayesiano del 95% para m 

c) Obtener un intervalo de confianza del 95% para ¡i y compararlo con el intervalo esti- 
mado en el inciso b). 

d) Repetir los incisos a, b y c con cr = 100. Comentar los resultados. 

e) Repetir Iqs incisos a, b y c con o» = 800. Comentar los resultados. 

f) Supóngase que n = 64; asumiendo que x = 21 500, ¿de qué forma afectarían los 
cambios anteriores las respuestas dadas para los incisos a, by el 
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8.45. Una oficina estatal determinó que el número de llamadas telefónicas que recibe es una 
variable aleatoria de Poisson. Debido a las condiciones del mercado, la oficina ha lle- 
gado a la conclusión de que el parámetro de Poisson es una variable aleatoria con distri- 
bución gama y parámetros de forma y escala iguales a 20y 4/ respectivamente. En un 
día, seleccionado al azar, se reciben 90 llamadas telefónicas. " ' ' ' ! " 

■ a) Para una función de pérdida de error cuadrático, obtener el estimador Bayes del pa- 
rámetro de Poisson. 
b) Obtener un intervalo de probabilidad bayesiano del 95%. (Sugerencia: empléese 
(5.51).) 

8.46. Una compañía constructora de hoteles se encuentra muy interesada en las tensiones.de 
ruptura de los cables de acero que sostendrán un pasillo por encima del vestíbulo del ho- 
tel. El contratista hace uso de los servicios de una organización independiente a la cual 
da las instrucciones necesarias para probar los cables y determinar un limite de toleran- 
cia inferior para la tensión de ruptura de éstos de manera tal que, con una probabilidad 
de 0.95, el 99% de los cables tenga una tensión de ruptura uiayor al limite deseado. La 
organización selecciona, en forma aleatoria, 20 cables y los prueba para determinar sus 
tensiones de ruptura. Los resultados de la prueba, en kilogramos por centímetro 
cuadrado, son 2130, 2158, 2192, 2110, 2145, 2208, 2201, 2195, 2125, 2148, 2166, 2172, 
2192, 2138, 2210, 2215, 2108, 2105, 2120 y 2130. Si se supone que la tensión de ruptura 
es una variable aleatoria distribuida normal, obtener el limite de tolerancia deseado. 

8.47. El diámetro interno de un cojinete es una medida crucial en la fabricación dé éste. Con 
base en una muestra aleatoria de 25' cojinetes, la media muestra] fue de 3 cm y la des- 
viación estándar muestra! fue igual a 0.005 cm. Obtener los limites de tolerancia bilate- 
rales de manera tal que, con una probabilidad de 0.99, el 95% de los diámetros de todos 
los cojinetes manufacturados por este proceso se encuentren dentro de los limites de tole- 
rancia. Supóngase que el diámetro interno es una variable aleatoria distribuida normal. 

8.48. Supóngase que en el ejercicio 8.47 no es posible asumir una distribución normal. Si de 
los 25 cojinetes, el diámetro más pequeño fue de 2.984 y el más grande de 3.013 y se está 
interesado en un intervalo que contenga al 90, 95 o 99% de todos los diámetros internos, 
¿cuál es la probabilidad que puede asociarse con el intervalo de 2.984 al 3.013 para cada 
uno de los porcentajes anteriores? 

8.49. Supóngase que no es posible asumir una distribución normal en el ejercicio 8.46. Para la 
misma probabilidad y tamaño muestral, ¿cuál debe ser la proporción de tensiones de 
ruptura que debe exceder el valor más pequeño de las 20 observaciones? ¿Qué tan gran- 
de debe ser la muestra necesaria en este caso para tener la misma probabilidad y propor- 
ción del ejercicio 8.46? 

8.50. Supóngase que se está muestreando una población cuya distribución de probabilidad es 
desconocida. ¿Cuál debe ser el tamaño de la muestra necesario para que, con una pro- 
babilidad de 0.99, por lo menos el 95% de los valores de la variable aleatoria de interés 
esté incluido entre los dos valores extremos de la muestra? 

8.51. Supóngase que se está muestreando una población cuya distribución de probabilidad es 
desconocida. ¿Cuál debe ser el tamaño de la muestra necesario para que, con una pro- 
babilidad de 0.99, por lo menos el 97% de los valores de la variable aleatoria sea mayor 
que el valor más pequeño de la muestra? 
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CAPITULO NUEVE 



■ xt'Ht: 



Prueba de hipótesis estadísticas 



9.1 Introducción 

En el capítulo 8 se examinó la inferencia estadística con respecto a la estimación 
puntual y por intervalo. En este capítulo se estudiará otra área de la inferencia: la 
prueba o contraste de una hipótesis estadística. Como se verá, la prueba de una hi- 
pótesis estadística tiene una fuerte relación con el concepto de estimación. 

Una hipótesis estadística es una afirmación con respecto a alguna característica 
desconocida de una población de interés. La esencia de probar una hipótesis estadís- 
tica es el decidir si la afirmación se encuentra apoyada por la evidencia experimental 
que se obtiene a través de una muestra aleatoria. En forma general, la afirmación in- 
volucra ya sea a algún parámetro o a alguna forma funcional no conocida de la 
distribución de interés a partir de la cual se obtiene una muestra aleatoria. La deci- 
sión acerca de si los datos muéstrales apoyan estadísticamente la afirmación se toma 
con base en la probabilidad, y, si ésta es mínima, entonces será rechazada. 

En gran medida, el enfoque de este capítulo será más intuitivo que teórico ya 
que el autor piensa que desde este punto de vista el lector estará en posición de obte- 
ner una mejor idea de la esencia de las hipótesis estadísticas. En forma inicial se de- 
sarrollarán los fundamentos para la prueba de hipótesis estadísticas. Entonces se 
examinarán varias áreas de aplicación con respecto a medidas, varianzas y propor- 
ciones. 



9.2 Conceptos básicos para la prueba de hipótesis estadísticas 

Para ilustrar la noción de una hipótesis estadística, supóngase que se tiene interés en 
el tiempo promedio necesario para terminar una unidad en una línea de armado. 
Bajo condiciones de operación estándares, el objetivo es tener un tiempo promedio 
de armado por unidad de 10 minutos. El gerente de la planta decide continuar con el 
proceso a menos que se encuentre una evidencia sustancial de que el tiempo prome- 
dio no es de 10 minutos. La evidencia estará en una muestra aleatoria de tamaño n 
obtenida de la distribución de interés para el tiempo de armado de una unidad. 
¿Cómo debe decidirse si el proceso continúa en operación?- 
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La respuesta a este tipo de preguntas es el principal objetivo del presente 
capítulo. Nótese que no es de interés, per se, la estimación del tiempo medio desco- 
nocido fi, sino determinar si el valor de /tes 10. En otras palabras, antes de que la 
muestra se obtenga, ya se ha conjeturado que el muestreo se llevará a cabo sobre una 
distribución cuya media es 10. Si la afirmación es estadísticamente plausible con 
base en la evidencia experimental, entonces se asumirá que el valor promedio objetivo 
es de 10 minutos y, por lo tanto, se dejará que el proceso continúe. Por otro lado, si 
la afirmación no está apoyada estadísticamente por la evidencia muestral, el gerente 
de la planta puede decidir detener el proceso para llevar a cabo los ajustes necesarios. 

A la afirmación de que fi = 10 se le llama hipótesis nula y se escribirá como: 

H : M = 10. 

Nótese que con H se ha especificado un solo valor para el parámetro en cuestión. 
De hecho, si una hipótesis estadística asigna valores particulares a todos los pará- 
metros desconocidos e identifica la forma funcional de la distribución de interés, 
recibe el nombre de hipótesis sencilla o simple. De otra forma, se conoce como 
hipótesis compuesta. De esta manera, H : ¡i = 1 u es una hipótesis sencilla sólo si se 
especificaron la forma funcional de la distribución de interés y los valores de los pa- 
rámetros desconocidos (si es que los hay). Si la hipótesis nula se hubiese propuesto 
como H : ¡í =s 10 o H Q : /j. > 10, ésta no sería una hipótesis simple ya que no asig- 
na ningún valor específico para /a. 

Una hipótesis nula debe considerse como verdadera a menos que exista suficiente 
evidencia en contra. En otras palabras, se rechazará la hipótesis nula de que el tiem- 
po promedio de armado es de 10 minutos, sólo si la evidencia experimental se en- 
cuentra muy en contra de esta afirmación. Un paralelo muy cercano a esta interpre- 
tación es el de los procesos judiciales en los que el acusado es inocente hasta que no 
se demuestre lo contrario. Esto es, definiendo a la hipótesis nula como "inocen- 
te", se insiste en que se rechazará sólo si el juicio proporciona evidencia suficiente en 
contra de ésta. 

A continuación se analizan las posibles decisiones que pueden tomarse con res- 
pecto a lá hipótesis nula H : /¿ = 10. Al hacer esto deben tomarse en cuenta las con- 
secuencias que pueden originarse como resultado del verdadero estado de la natura- 
leza: en realidad n, puede o no ser igual a 10. En forma sencilla, existen dos posibles 
decisiones con respecto a H (rechazar // O o equivocarse al rechazar //„>.* Sin em- 
bargo, cada una de estas decisiones tiene las siguientes dos consecuencias con respec- 
to al estado de la naturaleza: 



Rechazar H Q 



cuando de hecho Hq es cierta Equivocarse (cuando de hecho H es cierta 

al rechazar H ) 
cuando de hecho H es falsa | cuando de hecho H es falsa 



Si la decisión es el rechazar a H , entonces puede que se rechace algo que 
es cierto (decisión incorrecta) o que se rechace algo que en realidad es falso (decisión 

* La razón de por qué se ha usado la frase "equivocarse al rechazar H„" más que "aceptar H„" será 
.-vidente más adelante. 
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correcta). Si no se puede rechazar H Q , entonces no puede rechazarse algo que es cier- 
to (decisión correcta), o no puede rechazarse algo que en realidad es falso (decisión 
incorrecta). Por lo tanto, si la decisión es rechazar o equivocarse al rechazar H a , 
existen dos posibilidades de tomar' una de^ión equivb^dVcon respectó 'al verdade- 
ro estado de' la naturaleza. : *■■">■■ ^'v^'^w^í»*^-^^ -^fJtflí!' J ''siíi5aí^ '«■•■ -' 

Cuando se toma una decisión con respecto a una hipótesis nula, dos de las po- 
sibles consecuencias relativas al verdadero estado de la naturaleza conducen a erro- 
res inferenciales. El rechazo de la hipótesis H cuando en realidad H Q es cierta, 
constituye lo que se denomina error de tipo I. Equivocarse al rechazar H cuando 
en realidad H es falsa, constituye lo que se denomina error de tipo II. El lector 
debe notar que sólo es posible el error de tipo I cuando la decisión es el rechazar la 
hipótesis nula, mientras que el error de tipo II sólo es posible cuando la decisión es el 
no rechazar H . En otras palabras, si la hipótesis nula realmente es cierta, sólo 
puede cometerse un error de tipo I; si la hipótesis nula es falsa, sólo puede cometerse 
un error de tipo II. No pueden cometerse ambos errores en forma simultánea. De 
manera obvia, el interés recae en la posiblidad de cometer un tipo, cualquiera, de 
error. Sin embargo, es importante comprender que una decisión con respecto a una 
hipótesis estadística es un proceso inferencial, el cual siempre se encuentra sujeto a 
error. La decisión de rechazar H no necesariamente significa que H sea falsa; 
pero la evidencia muestral con base en la cual se toma la decisión proporciona un 
grado de confiabilidad (paralelo al de la estimación de intervalo) con el que puede 
procederse como si H fuese falsa. 

Es necesario tener alguna cantidad que mida la posibilidad de cometer alguno de 
estos errores. Esta medida es una probabilidad. 

Definición 9.1 La probabilidad de rechazar H , dado que H es cierta, se define 
como la probabilidad (o tamaño) del error de tipo I y se denota por a, «s a «s 1. 

Definición 9.2 La probabilidad de no rechazar H , dado que H es falsa, se define 
como la probabilidad (o tamaño) del error de tipo II y se denota por/3, =£ /3 =s 1. 

Por lo tanto, las probabilidades de los errores de tipo I y tipo II están dadas por 
las proposiciones 

/^rechazar // | H es cierta) = a (9.1) 



Pino poder rechazar H 1 H es falsa) = /3. (9.2) 

Nótese que tanto a como /3 son probabilidades condicionales. No pueden obte- 
nerse las probabilidades de los errores de tipo I y tipo II en un sentido absoluto, de- 
bido a que el estado de la naturaleza no es conocido. Más bien, puede calcularse la 
probabilidad a de rechazar H sólo si se asume que H es cierta, o la probabilidad 
de equivocarse el rechazar H , si se asume que H es falsa. 

Cuando una afirmación se incorpora en la proposición de la hipótesis nula, se ne- 
cesita una regla que indique qué decisión tomar con respecto a H una vez que se en- 
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\i¿> 



K 



cuentra disponible la evidencia muestral. Esta regla recibe el nombre de prueba de 
una hipótesis estadística,! , M u -v . ■ ■ 5 \ > - - 

Defínición 9.3 . ; Una pruébate una hipótesis estadística con respecto a alguna ca- 
racterística desconocida de la población de interés es cualquier regla para decidir si 
se rechaza la hipótesis nula con; base en una muestra aleatoria de la población. 

La decisión se basa en alguna estadística apropiada la cual recibe el nombre de 
estadística de prueba. Para ciertos valores de la estadística de prueba, la decisión 
será el rechazar la hipótesis nula. Estos valores constituyen lo que se conoce como la 
región crítica de la prueba. Por ejemplo, recuérdese la hipótesis nula H : ¿u. = 10. 
Para un tamaño n dado de la muestra, supóngase que se decide rechazar //„ si se ob- 
serva un valor de la media muestral X que sea más grande que 12. Entonces, X es 
la estadística de prueba, el valor X = 12 es el valor critico, y el conjunto de valores 
mayores que 12 "on c 'ituyen la región crítica de la prueba. 

Para mostrar en forma gráfica la región crítica, supóngase que n es suficiente- 
mente grande de manera tal que la distribución de muestreo de la estadística de 
prueba X, dado que H es cierta, es esencialmente una distribución normal. La fi- 
gura 9.1 muestra la región crítica como el área sombreada a la derecha del valor 
crítico X = 12. El área de la región crítica es igual al tamaño del error de tipo I. En 
otras palabras, P(X > 12|¿u. = 10) = a. La interpretación de a es análoga a la de 
los intervalcrade confianza. Esto es, la probabilidad a es sólo una referencia con respecto 
a la región X > 12 involucrando a la variable aleatoria X, dado que ¿u. = 10. 
Pero la decisión de rechazar H se tomará con base en una sola muestra de tamaño 
n, a partir de la cual se calculará el estimador de x. De esta forma, si jf > 12, 
esto no significa que la probabilidad de que H sea correcta es a; más bien, esto 
implica una interpretación de frecuencia para a cuando se toman muchas muestras. 
En otras palabras, si el valor de// es realmente 10, y si se tomasen en forma repetida 
muestras de tamaño n de la población, debe esperarse que en un 100a% de las veces, 
se encuentre un valor de la estadística de prueban mayor que 12, y de esta forma debe 



Función de densidad de X bajo Hq 




Región critica de 
tamaño a 



FIGURA 9.1 La región critica como un área 
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rechazarse la hipótesis nula. Sólo eneste sentido puede decirse que la confiabilidad 
al rechazar H , cuando el estimador „Y > 12 es igual al complemento del error a de tiptí 
1, 0, 1 — a.!, .•:_.(.-. *.,■ ;y;-; ; .-'rrxsy- ;..;.' i./.'i-*;»> ■ .-;'s i ' í 'HoiD¡bí>yq sug 

Para construir una regla de decisión apropiada en la prueba de una hipótesis» 
estadística, también es necesario establecer una hipótesis alternativa que refleje el 
valor posible o intervalo de valores del parámetro de interés si la hipótesis nula es 
falsa. Esto es, la hipótesis alternativa representa alguna forma de negación de la hi- 
pótesis nula. Generalmente la hipótesis alternativa se representa por H, y puede ser 
simple o compuesta. A pesar de que no se pretende una generalización, en muchas 
ocasiones es deseable establecer una hipótesis nula que sea mas específica que la al-, 
ternativa. De esta manera, la hipótesis nula es simple en forma general, mientras que 
la alternativa es una hipótesis compuesta. Por ejemplo, supóngase que el gerente 
de la planta sospecha que el tiempo de armado promedio es mayor de 10 minutos. 
Entonces las hipótesis nula y alternativa apropiadas podrían ser 

H : M = 10, 
/#,: p. > 10. 

La razón de ello es que si la evidencia muestral no apoya el rechazo de la hipótesis 
nula, entonces el gerente de la planta podría proceder como si H fuese cierta. De otra 
manera, la sospecha podría justificarse y entonces puede ser necesario emprender al- 
guna acción para corregir la falla. 

De acuerdo con la definición 9 . 3 , el procedimiento de prueba se construye de ma- 
nera tal que la hipótesis nula sea o no rechazada. En este sentido, se dice que H es 
la hipótesis a ser probada. Sin embargo, con la inclusión de la hipótesis alternativa, 
puede ser más descriptivo decir que probar una hipótesis estadística es proporcionar 
una decisión entre H y H r Por ello debe ejercerse una precaución extrema al es- 
tablecer las hipótesis nula y alternativa. 

Se regresará a la analogía del proceso judicial para proporcionar una idea más 
clara sobre la materia. Si la hipótesis nula es "inocente", entonces, con toda seguri- 
dad, la hipótesis alternativa es "culpable". El rechazo de la hipótesis nula implicaría 
que el juicio ha sido capaz de proporcionar suficiente evidencia para garantizar un 
veredicto de culpable. Por otro lado, si el juicio no presenta evidencia sustancial, el ve- 
redicto será inocente. Esta decisión no implica necesariamente que el acusado sea 
inocente, más bien hace énfasis en la falta de evidencia sustancial necesaria para 
condenar al acusado. Por lo tanto, en cierto sentido un veredicto de culpable (el 
rechazo de H ) debe considerarse como una decisión más fuerte que un veredicto 
de inocente (equivocación al rechazar H ), lo cual surge del principio judicial general- 
mente aceptado de que es peor condenar a una persona inocente que dejar ir a una 
culpable. Si el veredicto es culpable, se desea tener un grado muy alto de seguridad 
de que no se va a condenar a una persona inocente. Por lo tanto, en muchas si- 
tuaciones el error de tipo I se considera como un error mucho más grave que el error 
de tipo II. 

En la prueba de hipótesis estadísticas el enfoque general es aceptar la premisa 
de que el error de tipo I es mucho más serio que el error de tipo II, y formular las hi- 
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pótesis nula y alternativa de acuerdo con lo anterior. Como resultado se tiene que 
muchas veces se selecciona con anticipación el tamaño máximo del error de tipo I 
que puede tolerarse y se intenta construir un procedimiento de prueba que minimice 
el tamaño del error de tipo II. En otras palabras, no es posible fijar tanto a a como a 
(1 y diseñar alguna regla de decisión para probar H contra H t , dada una' muestra 
aleatoria de tamaño n. Espor esta razón que se dice "equivocación al rechazar H " 
más que "aceptar H " cuando la evidencia muestral no apoya el rechazo de la hipó- 
tesis nula. ' 

Un principio sencillo y razonable al obtener reglas de decisión para la prueba de 
hipótesis estadísticas es seleccionar aquel procedimiento de prueba que tenga el ta- 
maño más pequeño para el error de tipo II entre todos los procedimientos que ten- 
gan el mismo tamaño para el error de tipo I. En este contexto debe notarse que el va- 
lor de a no puede hacerse muy pequeño sin que se incremente el valor de j8. En otras 
palabras, para una muestra de tamaño n dado, el tamaño del error de tipo II nor- 
malmente aumentará conforme el tamaño del error de tipo I disminuya. Lo qi>*% en 
forma general, se hace en la práctica, es ajustar el tamaño del error de tipo I cambiando 
el valor crítico de la estadística de prueba para así alcanzar un balance satisfactorio entre 
los tamaños de los dos errores. Sin embargo, cuando se hace esto debe tenerse en mente 
el máximo tamaño del error de tipo I que puede tolerarse en una situación en particular. 
Por ejemplo, recuérdese de nuevo la hipótesis nula //„: /u. = 10 contra la hipótesis 
alternativa //, : fi > 10. Entonces )3 es igual a la probabilidad de equivocarse al 
rechazar H cuando H, es cierta. Al igual que antes, sea X la estadística de prueba. 
La figura 9.2 muestra cómo, mediante el cambio del valor crítico de 12 a 1 1 , el tama- 
ño de error de tipo I disminuye (éste se encuentra por debajo de la curva que está a la 
izquierda en ambos casos), pero crece el tamaño del error de tipo II (éste se muestra 
bajo la curva que se encuentra a la derecha en ambos casos). 

La probabilidad a del error de tipo I también se conoce como el nivel de signifi- 
cancia estadístico. En este contexto la palabra "significancia" sólo implica que la 



/(*) 



f(x\H Q ) f(x\HO 



f(x\H ) Rx\H x ) 



f(x) 




10 11 
a) Valor crítico = 1 1 



10 12 x 

b) Valor crítico = 1 2 



FIGURA 9.2 El efecto sobre a y H al cambiar el valor crítico 
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evidencia muestral es tal que garantiza el rechazo de H a un nivel dado de a. En 
consecuencia, la frase "El rechazo de //„ es estadísticamente discernible a un nivel 
dado a", es más apropiada. Un ejemplo ilustrará los conceptos anteriores. 

Ejeníplo 9.1 Supóngase que puede tolerarse un tamaño del error de tipo I hasta de 
0.06 cuando se prueba la hipótesis nula 

H : ¡X = 10 

contra la hipótesis alternativa 

Hr.ii> 10 

para el problema del tiempo de armado. Supóngase que la distribución del tiempo 
necesario para armar una unidad es normal con desviación estándar a = 1 .4 minu- 
tos. Se observan los tiempos de armado de 25 unidades seleccionadas aleatoriamente 
y escoge la media muestral X como la estadística de prueba. En particular, se desea 
comparar las siguientes regiones críticas. 



Prueba A 
Prueba B 
Prueba C 



Rechazar H si X > 10.65 
Rechazar //„ si X > 10.45 
Rechazar H si X> 10.25 



para determinar cuál de éstas satisface el tamaño del error de tipo I que puede tole- 
rarse y cuál tiene el valor más pequeño de fi entre las tres. 

Para determinar la probabilidad del error de tipo I, se asumirá que H es cierta y 
se calculará 

P(X > c | ¡jl = 10) = a, 

en donde c es el valor crítico, o frontera de la región crítica. Ya que se asume que el 
muestreo se lleva a cabo sobre una distribución normal, bajo H , X ~ MÍO, 1.4/V25). 
Por lo tanto, para la prueba A 

a = P(X> 10.65 | fi = 10) 

= P[Z >( 10.65 - 10)/0.28 \fi= 10] 
= P(Z > 2.32 | fi = 10) 
= 0.0102. 

De manera similar, para la prueba B 

a = P(X> 10.45 \fi= 10) = P(Z > 1.61 | ¡jl = 10) = 0.0537, 
y para la prueba C 

a = P(X> 10.25 \fi= 10) = P(Z > 0.89 \fi= 10) = 0.1867. 
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Nótese que el tamaño del error de tipo I para la prueba C es mayor al limite impues- 
to de 0.06, mientras que para las pruebas A y B, éste es menor que el limite dado. 
Puesto qufeCno .reúne. los requisitos, no será ya considerada. 
■ Ya que ni la prueba A ni la B han violado el tamaño máximo del error de tipo I, se 
determinará cual de estas dos tiene el tamaño más pequeño para el error de tipo II. 
Recuérdese que la ocurrencia de un error de tipo II implica que H a es falsa. Enton- 
ces, para un tamaño de la muestra y un valor máximo de a dados, el tamaño del 
error del tipo II será, en forma estricta, una función del intervalo de valores del pa- 
rámetro desconocido como se encuentran especificados en la hipótesis alternativa. 
En otra palabras 

j8(M) = P(X^c\(jl> 10). 

En particular, supóngase que el valor real dé fies igual a 10.4. Entonces, para la 
prueba A 

0(10.4) = P(X « 10.65 | ti = 10.4) = P(Z =£ 0.89 ¡ n = 10.4) = 0.8133, 

mientras que para la prueba B 

£(10.4) = P(X =s 10.45 | fi = 10.4) = P(Z =s 0.18 | y = 10.4) = 0.5714. 

De esta forma, si n = 10.4, la probabilidad de que la prueba A se equivoque al 
rechazar la hipótesis nula de que /a = 10 es de 0.8133, y la correspondiente proba- 
bilidad para la prueba B es de 0.5714. Para este valor particular de la hipótesis alter- 
nativa, la prueba B es mejor que la A. 

Al ilustrar el intervalo de valores de las probabilidades ¿8 para estas dos pruebas, 
se continúa el proceso de calcular el tamaño del error de tipo II para otros valores 
representativos. En la tabla 9. 1 se da la información pertinente. Posteriormente se 
ilustrará que para una hipótesis alternativa dada y un tamaño fijo del error de tipo I, 
puede reducirse el tamaño del error de tipo II mediante el incremento del tamaño de 
la muestra. 

■Con base en la información proporcionada en la tabla 9.1 , pueden formularse las 
siguientes observaciones. Conforme el tamaño del error de tipo I disminuye (prueba 
A), el tamaño del error de tipo II aumenta. Si la afirmación propuesta por la hipóte- 
sis nula es falsa pero difiere muy poco del verdadero valor, la opción de no rechazar 
H es alta. Sin embargo, si la hipótesis nula es falsa por una cantidad muy grande, 
la probabilidad de equivocarse al detectar su falsedad es pequeña. De esta forma, al 
comparar las pruebas A y B, si puede tolerarse un tamaño del error de tipo I hasta de 
0.06, entonces la prueba B es mejor que la A debido a que sus probabilidades j8 son, 
de manera uniforme, más pequeñas que las de la prueba A. 

?')'■■)■ O; n?j, :V 

TABLA 9.1 Probabilidades para el error de tipo II para las pruebas A y B 



M 


10.2 


10.4 


10.6 


10.8 


11.0 


11.2 


11.4 


Prueba A 
Prueba B 


0.9463 
0.8133 


0.8133 
0.5714 


0.5714 
0.2946 


0.2946 
0.1056 


0.1056 
0.0250 


0.0250 
0.0037 


0.0037 
0.0003 
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9.3 Tipos de regiones críticas y la función de potencia >y .'■..^4.Mí?./v't 

Con anterioridad se sugirió que es deseable establecer una ,Mpótesis;nüIá~ámplér De 
hecho, también es deseable establecer una hipótesis alternativa simple ya que sólo en este 
caso es posible determinar valores únicos de los tamaños de loa errores'fipb I y 4 tipo IK 
Con el propósito de ilustrar lo anterior, recuérdese el ejemplo 9.1. Supóngase qué para 
éste tambiénse ha formulado la siguiente hipótesis alternativa H,: ¡i = 10.8. En- 
tonces para las pruebas A y B, los tamaños de los errores de tipo I permanecerán en 
0.0102 y 0.0537, respectivamente. Pero en este caso la probabilidad del error de tipo 
II para cualquiera de las pruebas tendrá un solo valor más que un intervalo de valo- 
res, como en el ejemplo 9.1 . Sin embargo, debe notarse que una hipótesis alternativa 
simple puede tener una aplicación real limitada. De acuerdo con lo anterior, se pro- 
cederá bajo la hipótesis de que la hipótesis nula es simple y la alternativa compuesta. 
En este contexto se desean estudiar los tipos de regiones criticas que pueden sur- 
gir. Considérese la hipótesis nula simple. 

H : 9 = ff 

con respecto al parámetro de interés 0, cuando se muestrea una distribución cuya 
función, de densidad de probabilidad es f{x; 9), en donde 9$ es el valor pro- 
puesto de 0. Si la hipótesis alternativa es de la forma. 

H i :9>9 

o 

//i : 9 < 9 , 

Se dice que H, es una hipótesis alternativa unilateral, debido a que los posibles valo- 
res de 6 bajo H L se encuentran a un lado del valor propuesto bajo H . La región 
crítica también recibe el nombre de región de rechazo unilateral debido a que es, 
en forma intuitiva, razonable rechazar H para los valores de una estadística de 
prueba apropiada que, si H fuese cierta, son extremos en la dirección que especifi- 
ca la hipótesis alternativa. Vale la pena notar que la hipótesis alternativa debe for- 
mularse sólo si el valor de uno de los parámetros que se encuentre en el lado opuesto, 
no tiene sentido para el investigador. De otro modo, debe establecerse una hipótesis 
alternativa bilateral. Esto es, si la hipótesis alternativa no proporciona una dirección 
con respecto al valor propuesto de O > entonces se dice que H x es una hipótesis alter- 
nativa bilateral de la forma 

Una hipótesis alternativa bilateral implica la existencia de una región crítica 
bilateral* ya que H ] incluye valores de 9 que se encuentran a ambos lados del valor 
propuesto de 0„ • Para este caso, la decisión se inclina a rechazar la hipótesis nula 
para aquellos valores de la estadística de prueba que, si H fuese cierta, son extre- 
mos en cualquier dirección. 

* En forma general, una región crítica bilateral es simétrica; las dos partes de la región se seleccionan de 
tal manera que el área bajo cada una de las regiones sea igual. 
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TABLA 9.2 Potencias de las' pruebas A y B para el ejemplo 9.1 » 



uiD^ 



p 


10.2 


10.4 • 10.6 


10.8 


11.0; 


^!'- 2 '■;: 


H- 4 


Prueba A 
Prueba B 


0.0537 
0.1867 


0.1867 ^-0.4286: > 
0.4286 , 0.7054 


0.7054 
0.8944 


0.8944 i 
0.9750 \ 


i ^0.9750, 
0.9963 


0.9963 
0.9997 



Si se asume una hipótesis alternativa compuesta, es necesario generalizar los me- 
dios por los cuales se puede evaluar la interpretación de una prueba dada, en forma 
especial cuando se compara ésta con otras pruebas. Como se ilustra en el ejemplo 
9. 1 , el tamaño del error de tipo II varía para los diferentes valores de 9 de la hipóte- 
sis alternativa cuando //, es compuesta. De esta forma el tamaño del error de^igolt) 
se obtiene como una función de los valores alternativos de bajo H t . Debe notarse 
que /8(0) se conoce como la función característica de operación, y cuando se gráfica 
/3(0) para diversos valores de 9 de H\ , se obtiene una curva característica de opera- 
ción (CO). 

Dado que /3(0) es la probabilidad de que un valor de la estadística de prueba no 
se encuentre en la región crítica cuando H es falsa, entonces 1 — ¡3(9) representa la 
probabilidad de que un valor de la estadística de prueba se encuentre dentro de la re- 
gión crítica cuando H es falsa. Esta probabilidad se conoce como la función poten- 
cia de la prueba. En otras palabras, las funciones potencia y características de opera- 
ción son complementarias. 

Definión9.4 La función P{9) = 1 - /3(0) recibe el nombre de función potencia y 
representa la probabilidad de rechazar la hipótesis nula cuando ésta es falsa; es de- 
cir, cuando el valor del parámetro de H x es cierto.* 

En esencia, la potencia de una prueba es la probabilidad de detectar que H es, 
en forma verdadera, falsa; de aquí el uso de la palabra "potencia". Como ilustra- 
ción, recuérdese el ejemplo 9. 1 . Los complementos de las probabilidades de los erro- 
res de tipo II que se encuentran en la tabla 9. 1 son las potencias de las pruebas A y B 
páralos valores indicados de u. cuando se prueba H : ¡x = 10 contra H,: ¡jl > 10. 
Estos valores se encuentran en la tabla 9.2. De esta información, es evidente que la 
prueba B es más poderosa que la prueba A. Pueden granearse las funciones caracte- 
rísticas y de potencia de las pruebas A y B contra los valores de ¿¿, dando las curvas 
características de operación y de potencia que se ilustran en la figura 9.3. 

Recuérdese que para un a fijo y una hipótesis alternativa dada, puede disminuir- 
se el tamaño del error de tipo II si se incrementa el tamaño de la muestra. Por lo tan- 
to, se desprende que la función de potencia aumentará conforme aumenta el tamaño 
de la muestra. Como ilustración, considérense las pruebas A y B del ejemplo 9.1 
para las que el tamaño de la muestra se aumenta hasta un valor de 50. Dado qué 
se insiste que los tamaños del error de tipo I siguen siendo los mismos para las 

* Si H B es cierta, algunos autores definen la potencia para ser igual al tamaño del error de tipo í. 
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9.6 10.0 10.4 10.8 11.2 14.6 
a) Curva de potencia 




9.6 10.010.4 10.811.2 11.6 
b) Curva CO 



FIGURA 9.3 Comparación de las funciones pqtencia y característica de operación para A y B 

pruebas A y B, sus valores críticos pueden disminuir de valor debido al incremento 
en el tamaño de la muestra. En particular, pra la prueba A 

P(X > c A | p = 10) = 0.0102, 
o 

^£ = 2.32, 
1.4/V50 

c A - 10.46. 

De manera similar, para la prueba B 

P{X>c B \p = 10) = 0.0537, 

y c B = 10.32. La tabla 9.3 contiene información comparable con la de las tablas 9.1 
y 9.2 para n = 50. 

También puede mostrarse la potencia para diferentes valores de p relativos a la 
distribución de muestreo de la estadística X. Considérese, por ejemplo, la prueba B, 



TABLA 9.3 Potencias y probabilidades fi de las pruebas A y B para n = 50 



10.2 



10.4 



10.6 



10.8 



11.0 



11.2 



11.4 



Prueba A 


P(nV 


0.0951 


0.3821 


0.7611 


0.9573 


0.9968 


0.9999 


= 1 




PH¿\ 


0.9049 


0.6179 


0.2389 


0.0427 


0.0032 


0.0001 


= 


Prueba B 


Pin) 


0.2709 


0.6554 


0.9207 


0.9922 


0.9997 


= 1 


= 1 




/3<M) 


0.7291 


0.3446 


0.0793 


0.0078 


0.0003 


= 


= 
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H= 10.05 



Potencia = 0.0869 



10 10.32 




Al = 10.4 



Potencia = 0.6554 



10 10.32 




Al = 10.8 
Potencia = 0.9922 



10.32 



FIGURA 9.4 Probabilidades de rechazo de H para la prueba B (n = 50) 



en la que el valor crítico es c B = 10.32 para n = 50. La figura 9.4 muesra la distri- 
bución de X para distintos valores de /la > 10, en donde el área sombreada es la po- 
tencia o la probabilidad de rechazar H . Nótese que conforme el valor de ft se aleja 
del valor propuesto bajo H , la potencia de la prueba aumenta. 



9.4 Las mejores pruebas 

En la última sección se determinó que la evaluación de la prueba de una hipótesis 
estadística debe hacerse con base en su función de potencia. En esta sección se regre- 
sará al problema igualmente importante de cómo construir una buena prueba. En un 
sentido teórico, el método para construir buenas pruebas es más claro cuando tanto 
las hipótesis nula y alternativa son simples o cuando ambas son cumpuestas. En este 
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punto, se considerará un teorema para construir las mejores pruebas en el caso sen- 
cillo de H contra H,. Este teorema también tiene alguna aplicación en casos más 
prácticos.,' , ,\ - '"v .. 

Sea X¡,- X 2 , ..., X n una muestra aleatoria de tamaño n de una población cuya 
función (densidad) de probabilidad es f{x; 6), y considérese la hipótesis 

H : 6 = d 
contra 

H í :d = e l , 

en donde se especifican o ydt. Supóngase que a es el tamaño máximo del error de 
tipo I que se puede tolerar. Entonces la mejor prueba para H contra H t es aquélla 
que tiene el tamaño más "pequeño del error de tipo II (y de esta forma la mayor po- 
tencia) de entre todas las pruebas que tengan un tamaño del error de tipo I no mayor 
que a. Se pueden determinar las regiones críticas para estas pruebas mediante el uso 
del siguiente teorema, el cual se conoce como lema de Neyman-Pearson: 

Teorema 9.1 Si existe una región crítica C de tamaño a y una constante positiva k 
tal que 

LqKXí, x 2 , ..., x n ; O ) . 

k interior C , 



A)(-*li X 2i ■■■■* x n\ "0/ 
Ll(X\, X 2 , ..., X„ ; 0|) 



exterior C, 



entonces C es la mejor región crítica de tamaño a para probar H : = 6o contra 
//, : 6 = di , en donde L y L, son las funciones de verosimilitud relativa a H y H, , 
respectivamente. 

La demostración del teorema 9.1 se encuentra más allá del alcance de este libro. 
Sin embargo, puede aclararse la utilidad de este teorema mediante los siguientes 
ejemplos. 

Ejemplo 9.2 Sea X K , X 2 , . . . , X n una muestra aleatoria de tamaño n de una distri- 
bución normal con media y. desconocida y varianza a 2 conocida. Determinar la me- 
jor región crítica de tamaño a para probar 

H : ix = n 

contra 

H\\ ix = ii u 



en donde fx t > yx - 

Bajo H la función de verosimilitud es 

L (x u x 2 x„;/x ) = (\/27ro-)""exp 



-i^-*,) 2 / 2 * 2 } 
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y bajo A/, ésta es ■ 



expf-ií*,-/*,) 2 ^] 



Entonces, de acuerdo con el teorema 9.1, la mejor región crítica es aquélla para la 
cual 



exp -2(*í - Mo) 2 /2o- 2 



exp 



.£(*,. -/*,)72<r 2 J 



k. 



Esta desigualdad puede escribirse como 



exp 



1 

2o- 2 



2U/ - Mi) 2 - Zt*. ~ Mo) 2 



*, 



(9.3) 



la cual, después de tomar los logaritmos, se reduce a 

2>; " M,) 2 " 2>/ - Mo) 2 « 2o- 2 ln(¿). (9.4) 

El lado izquierdo de (9.4) se simplifica de la siguiente manera: 

2Uí - Mi) 2 - Zí*/ - Mo) 2 = Z*/ ~ 2miZ*í + "Mi ~ Z* 2 + 2moZ*. - rifil 

= "(Mi - Mo) - 2(mi - Mo)S*í- 
Sustituyendo en (9.4) se tiene 

/i(/x 2 - i¿l) - 2(/x, - Mo)2>. « 2o- 2 ln(¿), 
o 

-2(/ü, - Mo)2*/ ^ 2o- 2 ln(¿) - n(¿¿ 2 - Mo). 
Puesto que pt| > fx , la cantidad -2(/lí, - Mo) es negativa; así que 

n((í] - pto) - 2crln(A.) 



Z* 



2(Mi ~ Mo) 

k(¿¿ 2 - /n 2 ,) - 2o- : ln(Á:) 
2n(Mi - Mu) 



(9.5) 



La expresión (9.5) define la forma de la mejor región crítica para probar //<>: m 
= Mo contra H t : fi = /la, en donde Mi > Mo- De manera sencilla, la mejor re- 
gión crítica es el extremo derecho de la distribución de muestreo de X bajo la hipóte- 
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sis nula. Para un « dado, el valor crítico x puede; encontrarse mediante, una 
elección apropiada de la constante positiva K, de manera tal que : 

^ í-,.^.,;..^.^ ....-, , ;H^ &Jc olf* -M«) : =av .; 3; '-,;3.j 7 . ia ¿- : .,; n ¿^'-ir.oíí> 
En particular, supóngase que se escoge un tamaño del error de tipo I igual a 0.05'.' 
Entonces el valor crítico de 3f es tal que ,\ 

P(X>Xo\ii = mo) = 0.05. 

Ya que ba[o //<>, A' tiene una distribución normal con media ^o y desviación están- 
dar o-/ \Jn, entonces q \ ¡ ^ , - 

- Mo 






/x = ito = 0.05; 



. -i <" . -v i r 



pero 

P(Zss 1.645 |/x = vl ) = 0.05, 

en donde Z ~ N(fi, 1). De acuerdo con lo anterior, el valor crítico de ]c es tal que: 

Xo ~ Ak> 



r-t/ cr 



^' 



><9 - 



Nn 



= 1.645, 



. , _ 1.645o- 



k 



Por lo tanto, se rechazará a //„: /x = Mo en favor de H t : /x = am > /¿o cada vez 
que un valor de Jf sea s* (1.645o-/Vñ) + /x<>- 

Es importante que el lector note que la forma de la mejor región crítica, como 
está dada por (9.5), para probar H : ¡jl = /x contra //,: /x = /x, es independiente 
del valor de tii siempre que /x, > p^. En otras palabras, para toda /x, > li<, la 
mejor región crítica en la prueba de H : p, = /¿o es el extremo derecho de la dis- 
tribución de muestreo de X. Así, la expresión (9.5) en realidad da la forma de la me- 
jor región para probar la hipótesis nula simple //„: p = p contra la hipótesis 
alternativa compuesta // 1 : p > /x . Esta mejor región crítica recibe el nombre de 
región (o prueba) uniformemente más potente para probar H : p = po contra 
H¡: p. > /xo- Los comentarios anteriores serán generalizados con la siguiente defini- 
ción de la mejor prueba. 



Definición 9.5 Se dice que una prueba de la hipótesis H : 8 = O es la prueba 
uniformemente más potente de tamaño a si ésta es por lo menos tan poderosa, para 
cualquier valor posible 6 de la hipótesis alternativa, como cualquier otra prueba de 
tamaño «a. Esto es, la función de potencia de esta prueba es, por lo menos, tan 
grande como lá de cualquier otra prueba de tamaño «a para cualquier valor de la 
hipótesis alternativa. 
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•En forma desafortunada no siempre existen las pruebas uniformemente más po- 
tentes. Como se ilustró en el ejemplo 9.2, se puede usar el lema de Neyman-Pearson 
para determinar la prueba uniformemente más potente para cierto número de situa- 
ciones de interés práctico en las que la hipótesis alternativa es compuesta pero unila- 
teral. ■■.-;.', -'v -■■ -.-■■■ -a \l 

Ejemplo 9.3 Sea X¡, X 2 , ..., X n una muestra aleatoria de tamaño n de una 
distribución gama con parámetro de escala 6 desconocidos y parámetro de forma 
a. * Determinar la mejor región crítica de tamaño a para probar 



contra 



en donde 6, < . 



H : 6 — O 
H t :6 = 0,, 



Se procederá en forma similar a la del ejemplo 9.2. Bajo H , la función de verosi- 
militud es 



L (x t ,x 2 ,...,x n ;6 ) = mam- El *? exp( - 2 *¡ / «o ) , 
y para la hipótesis alternativa ésta es 

L l {x x ,x 2 ,:..,x„;9 í ) = [T(a)ffn-YlxUM ~X *t I '*i 



Con base en el lema de Neyman-Pearson, la mejor región crítica es aquélla para la 
cual 



Esto es 



Cexpí-^MJ 
Cexpí- ^jcVíO 



k. 



exp| "% + T 



exp 






(e /e t rk 



{eje.fk 



[(0o - 0,)/0o*i]2>/ « \n[k(0 a /OX'}. 



* Se ha optado por denotar el parámetro de forma de la distribución gama con a en lugar de <* para evitar 
confundir éste con el tamaño del error de tipo I. 
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Se observa que la cantidad O — B t es positiva ya que por hipótesis 0, < O ; enton-> 
ees 



v 000, ln{*(0 o /0.n 



O _ 0| 
O 0, in[«flft/fl,n v^ ^ ,( 



-:>& 



N ^€^°?^ 



n(0o - 0.) 



v. 



T9.6) 



De acuerdo con lo anterior, la mejor región crítica para probar H : = O contra 
//,: = 0, en donde t < O es el extremo izquierdo de la distribución de 
muestreo de X. El valor critico * , para un tamaño dado del error de tipo I, es tal 
que: 

P(X *s x j = O ) = a, 

y puede encontrarse, en forma directa, de la distribución de X, la que en este caso 
también es una distribución gama. Para hacer lo anterior es necesario utilizar la fun- 
ción gama incompleta. De manera alternativa, si el tamaño de la muestra es lo sufi- 
cientemente grande, puede emplearse el teorema central del límite y usar entonces la 
aproximación normal. 

Dé nuevo, es interesante notar que la forma de la mejor región crítica dada por 
(9.6) no depende del valor particular siempre que 0, < o .Por tanto, en realidad 
la región crítica indicada por (9.6) es una región uniformemente más potente para 
probar H : = O contra //,: < O cuando se muestrea una distribución gama 
con parámetro de forma conocido. 

Se invita al lector a que compruebe que si, en el ejemplo 9.2, la hipótesis alterna- 
tiva es de la forma H, : fj. < jliq, la mejor región critica para probar //„: p. = m es 
el extremo izquierdo de la distribución de X. Por lo tanto, se desprende que si en el 
ejemplo 9.3 la hipótesis alternativa fuese H¡: > O , la mejor región crítica debe 
ser el extremo derecho de la distribución de X. Sin embargo, si la hipótesis alternati- 
va en cualquiera de estos dos ejemplos fuese bilateral (esto es, de la forma general 
H : = O contra //,: ^ O ), no puede encontrarse ninguna región crítica 
mejor, debido a que para todos los valores alternativos 0, < O , el extremo izquierdo 
de la distribución de X será el mejor, mientras que para todos los valores 0, > O es 
el extremo derecho el que será el mejor. Por lo tanto, como regla general, las 
pruebas uniformemente más potentes usualmente existen para hipótesis alternativas 
unilaterales, pero éstas no pueden encontrarse para hipótesis alternativas bilaterales. 

A continuación se ilustrará el uso del lema de Neyman-Pearson para determinar 
la mejor región crítica cuando la variable aleatoria de interés es discreta. 

Ejemplo 9.4 SeaA",, X 2 , ..., X„ una muestra aleatoria de tamaño n de una distri- 
bución de Poisson con parámetro k desconocido. Determinar la mejor región crítica 
de tamaño a para probar 

H : X = X 
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contra • , •. 

//,: X = X,, 

donde A, > Xq. 

Al proceder de manera similar a la de los ejemplos 9.2 y 9.3, se tiene 

i , . i\ _>' exp(-«X )Xf J ' 

L,(,\X\, X 2 , ..., X„,\ Q ) — T-r 

I k¡ 
y 

L(x x x-k)- ex P(-" X '>^* 

De esta manera, la mejor región crítica es aquélla para la cual 

exp(-«X )X^' 

exp[*(X, - X )] < k. 
Después de tomar los logaritmos, se tiene 

ln(XoAi)2>. + «fti ~ X ) « ln(¿) 
o 

ln(X /X.) £*, « ln(*) - «(X, - X ). 

Pero si X, > X , entonces < X /X, < 1 y el logaritmo natural de un número 
entre y 1 es negativo. Esto da como resultado que la desigualdad anterior pueda es- 
cribirse como 

^ ' ln(X /X,) ' . V- > 

La expresión (9.7) define la forma de la mejor región crítica para probar //„: X = X 
contra H t : X = X, > X . En particular, dado que Y = SA', también es una variable 
aleatoria de Poisson (véanse los ejercicios en el capítulo 7), la región crítica de la for- 
ma y = Sjc, s* y es equivalente a la desigualdad (9.7), en donde el valor crítico y 
se escoge de manera tal que 

P(Y2*y ) = a. 

Debido a que Y es una variable aleatoria discreta, es más difícil determinar el valor 
crítico de y„ de manera tal que P(Y 5= y ) sea exactamente igual al tamaño del error 
de tipo I previamente seleccionado. Para salvar esta dificultad puede implementarse lo 
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que se conoce como procedimiento de aleatorización (véase [2]). Desde un punto de 
vista práctico, simplemente se. escoge la-región; crítica K-d- valor de ..y 9 ¡ cuya área 
deberá ser lo más cercana al! tamaño del error de tipo I que;puede tolerarse: < t 

. . .-<. yí>;fl'.'í7iiL;i'}"*.í¡r ''.'^i\f-í ■<>X'U¡ ! ;hfí : -iTWWMí' §.Í5 íf'r. "6ríiií;*"i.; .'■' ".:'*:■-;'?' ""'■? T' '■■ ' 

'- ,.:-6¡.;4-* .:YAÍ'r r : T'v:' ' ' ..'■ : ; » . r ; ;: ; " í-o 'hv $h "'o'f^i::; «."i.^to . . .-.■;' '■ 'j -.'., 

9.5 Principios generales para probar una // simple contra una//, 
uní o bilateral 

En ía última sección se desarrolló uri criterio con el cual se pueden determinar las 
mejores pruebas para probar hipótesis estadísticas. Se mencionó que no existen 
pruebas uniformemente más potentes para hipótesis alternativas bilaterales a pesar 
de que, en forma usual, existen para hipótesis alternativas unilaterales. En esta sec- 
ción se desarrollarán criterios generales de prueba para los siguientes tres casos los 
cuales involucran hipótesis nulas simples y alternativas compuestas. 

Caso 1 Caso 2 Caso 3 



H : — 6 H : 6 = 6 H : 8 — d 

.//,:0 7¿0 O H l :6>6 //,:0<0 O 

Dado que para el caso 1 no pueden determinarse pruebas uniformemente más poten- 
tes, para tipificar éste se desea comparar las funciones de potencia de dos pruebas 
para un ejemplo específico. 

Ejemplo 9.5 Supóngase que en cierta ciudad sólo hay dos estaciones de televisión: 
el canal 6 y el canal 10. Se piensa que para las noticias de la tarde el auditorio se en- 
cuentra dividido en partes iguales para ambos canales. Una compañía se interesa en 
probar la afirmación de que la proporción de televidentes para las noticias de la 
tarde es igual a 0.5 para ambos canales. La compañía no posee ninguna información 
apriori para sugerir una alternativa unilateral por lo que decide probar la hipótesis 
nula 

H :p = 0.5 

contra 

H t :p¿ 0.5. 

La compañía encuesta a 18 residentes seleccionados al azar y pregunta qué canal pre- 
fieren para ver las noticias de la tarde. El número X indica que el canal 6 es el que 
se ha seleccionado. Se proponen las siguientes dos pruebas: 

Prueba A: Rechazar //<> si A" *s 4 o * ^ 14. 

Prueba B: Rechazar H si X s 5 o X & 13. 
í 
Si la compañía piensa tolerar un tamaño máximo de 0. 1 para el error de tipo I, deter- 
minar la mejor prueba a emplear para decidir entre H y 7/i • 
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La estadística de prueba X es una variable aleatoria binomial con n = 18 y, bajo 
la hipótesis nula, p = 0.5. Las regiones críticas para ambas pruebas son intuitiva- 
mente razonables ya que se rechazará la hipótesis nula para aquellos valores de X 
que se encuentren cercanos a o a 18. En otras palabras, úp fuese realmente igual a 
0.5, debe esperarse observar un valor de X cercano a 9. Entre más se aleje el valor 
observado del valor de 9, en cualquier dirección, se tendrá más evidencia para 
inclinarse a rechazar la hipótesis nula. Esto surge del hecho de que cuando se 
prueban hipótesis estadísticas, el pensamiento se basa estrictamente en la probabili- 
dad. Por ejemplo, si p fuese igual a 0.5, la probabilidad de que X tome un valor 
entre 6 y 12 incluyendo a estos valores es 

P(6 =s X « 12) = 0.9038. 

Por lo tanto, es poco probable que H sea correcta cuando se realice un valor de X 
grande o pequeño, ue uecho, la probabilidad para observar un valor grande o pe- 
queño de A", dado que H es cierta, es precisamente lo que se entiende por el tamaño 
del error de tipo I. 

Para la prueba A, la probabilidad del error de tipo I es 

a A = P(X *£ 4 | p = 0.5) + P{X 2* 14 | p = 0.5) 
= 0.0154 + 0.0154 
= 0.0308, 
y para la prueba B éste es 

a B = P(X *£ 5 | p = 0.5) + P(X 3= 13 | p = 0.5) = 0.0962. 

No es excesivo notar que las regiones criticas bilaterales son simétricas para ambas 
pruebas. Esto es lo mejor desde el punto de vista teórico y el procedimiento más 
aceptado desde el punto de vista práctico para el manejo de hipótesis alternativas bi- 
laterales. Ya que ambas pruebas tienen valores de a menores al tamaño máximo que 
puede tolerarse del error de tipo I, se compararán sus funciones de potencia para 
decidir cuál es la mejor de las dos. En la tabla 9.4 se dan las potencias de las pruebas 
A y B para distintos valores de p. 

TABLA 9.4 Funciones de potencia de las pruebas A y B 

p 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 

Prueba A A* =s 4) 0.9718 0.7164 0.3327 0.0942 0.0154 0.0013 =0 =0 =0 
P(X 3= 14) =0 =0 =0 0.0013 0.0154 0.0942 0.3327 0.7164 0.9718 

Potencia 0.9718 0.7164 0.3327 0.0955 0.0308 0.0955 0.3327 0.7164 0.9718 

Prueba B P(X *¡ 5) 0.9936 0.8671 0.5344 0.2088 0.0481 0.0058 0.0003 =0 =0 
PiX 3= 13) =0 =0 0.0003 0.0058 0.0481 0.2088 0.5344 0.8671 0.9936 

Potencia 0.9936 0.8671 0.5347 0.2146 0.0962 0.2146 0.5347 0.8671 0.9936 
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. De la tabla se observa que para cualquier valor dep, la potencia de la prueba B es 
mayor que la de la prueba A. De acuerdo con lo anterior, la prueba B es uniforme- 
mente más poderosa que la prueba A y es la mejor prueba a utilizar para probarlas 
hipótesis indicadas, En la figura 9.5 se dan las curvas de potencia para las pruebas A 
y B. Nótese que en ambos casos las curvas de potencia crecen en forma simétrica 
conforme los valores de p se alejan del valor propuesto para este bajo H . Lo ante- 
rior es un comportamiento típico de una función dé potencia para hipótesis alterna- 
tivas bilaterales, siempre que la correspondiente región critica bilateral sea simétrica. 



9.5.1 Principios generales para el caso 1 

Considérese la prueba de la hipótesis nula 

H : 6 = d 



contra la alternativa 



H¡: 6 ^ 6 , 



donde O es el valor propuesto de algún parámetro 6 bajo H . Dada una muestra 
aleatoria de tamaño n de la distribución de interés, el procedimiento general para 
probar H , es escoger el mejor estimador de 6, T y rechazar H cuando el estimado 




0.1 0.3 0.5 0.7 0.9 p 



FIGURA 9.5 Comparación de las funciones de potencia para A y B 
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t obtenido de la muestra, es en forma "suficiente", diferente del valor propuesto de 
O . Este procedimiento se basa en la noción de un evento raro, la cual ya se ha 
ilustrado en capítulos anteriores. Esto es, si el estimado t es Jo suficientemente dis- 
tinto del valor propuesto 0¿, entonces se ha observado un evento raro (y la hipótesis-, 
nula es correcta), o se ha observado un valor de la estadística que sugiere un valor 9 
diferente del propuesto 9 . Cuando el estimado / es en forma suficiente distinto de 
0„ > se asumirá la última posibilidad y se dejará el tamaño del error de tipo I igual a 
la probabilidad del anterior. En particular, para un tamaño preseleccionado a, del 
error de tipo I se obtiene una región crítica bilateral en los extremos de la distribu- 
ción de muestreo de T, de manera tal que el área, en cualquier lado, más allá del va- 
lor crítico es igual a a/2. Entonces se rechaza H en favor de H¡ cuando el estima- 
do t se encuentra dentro de la región crítica. Cuando el estimado t no se encuentra 
dentro de la región crítica, ro puede rechazarse la hipótesis nula. De esta forma, 
cualquier diferencia con respecto al valor de d se considera causada por la fluc- 
tuación en el muestreo del estimador T. 

Este enfoque es muy similar a la construcción de un intervalo de confianza bila- 
teral para 6. Para cualquier valor propuesto de d que se encuentre dentro de un in- 
tervalo de confianza del 100(1 - a)% para 0, H no será rechazada. Dado un 
intervalo de confianza del 100(1 - a)% para 6, sólo los valores propuestos bajo 
H que se encuentren fuera de este intervalo darán como resultado el rechazo de la 
hipótesis.nula. En este contexto, es apropiado considerar a un intervalo de confianza 
como una proposición más general de inferencia estadística para 0, ya que ésta 
incluye a todos los posibles valores de d que podrían no llevar al rechazo de la hipó- 
tesis nula. 



9.5.2. Principios generales para el caso 2 

Considérese la hipótesis nula 

H : 6 = 6 
contra la alternativa 

H,:6> O . 

Para este caso al igual que para el caso tres, la naturaleza unilateral de la hipótesis 
alternativa sugiere la existencia de alguna información a priori la cual ayuda a defi- 
nir la dirección unilateral de //, en relación con el valor propuesto de 6 . El procedi- 
miento general para probar //„ es de nuevo el escoger la mejor estadística T de y 
rechazar H cuando el estimado t es en forma "suficiente" mayor que el valor 
propuesto O . La palabra "suficiente" implica que se tiene una tolerancia para la 
fluctuación en el muestreo del estimador T. Sin embargo, si lo que se obtiene de esta 
forma por medio de la muestra aleatoria se encuentra más allá de esta tolerancia, 
H será rechazada. De esta forma, para un tamaño a, del error de tipo I, la región 
crítica se encuentra localizada en el extremo superior de la distribución de muestreo 
de T y H se rechaza si el estimado t no es menor que el valor crítico. En la figura 
9.6 se ilustra la curva de potencia típica para este caso. 
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FIGURA 9.6 Curva típica de potencia para el caso 2 



9.5.3 Principios generales para el caso 3 

Para probar la hipótesis 



contra 



H : 8 — 9 



H t :9< 



el procedimiento general es rechazar a H cada vez que el estimado t sea, en forma 
"suficiente", menor que el valor propuesto 9 . La región crítica de tamaño a se lo- 
caliza en el extremo inferior de la distribución de muestreo de Ten forma tal que el 
área a la izquierda del valor crítico sea igual al tamaño a del error de tipo I. Cual- 
quier valor / de la estadística de prueba Tque se encuentre en la región crítica llevará 
al rechazo de H . En la figura 9.7 se muestra la curva de potencia para este caso. 

Con respecto a la prueba de hipótesis estadísticas, el lector debe tomar nota de lo 
siguiente. Debido a que se coloca un gran énfasis en el tamaño del error de tipo I ge- 
neralmente se formula la hipótesis nula en forma tal que ésta se rechace si la eviden- 
cia experimental apoya esta decisión. En otras palabras, lo que realmente se desea es 
concluir que la hipótesis alternativa es la correcta. De esta forma, cuando se prueban 
hipótesis estadísticas, se juega un papel parecido al de un fiscal en su intento de pro- 
porcionar la suficiente evidencia para rechazar la hipótesis nula. Los indicado es 
escoger el tamaño del error de tipo I antes de la determinación de la muestra aleato- 
ria. Si se obtiene como resultado que la hipótesis nula no puede rechazarse con el va- 
lor escogido de a debe evitarse aumentar el tamaño del error de tipo I con la idea de 
rechazar la hipótesis nula. 

La discusión anterior constituye el método clásico para probar hipótesis estadís- 
ticas. Se han dirigido algunas críticas directas hacia este enfoque debido a que la de- 
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FIGURA 9.7 Curva típica de potencia para el caso 3 



cisión final de rechazar o no una H dada, es demasiado cortante y seca y no pro- 
porciona una medida real de que la decisión sea correcta en términos de la probabili- 
dad. Para esto lo que se ha sugerido es el cálculo del llamado valor/?. El valor p es la 
probabilidadd, dado que H es cierta, de que la estadística de prueba tome un valor 
mayor o igual que el calculado con base en la muestra aleatoria. Un valor p relativa- 
mente pequeño puede sugerir que si H es realmente cierta, el valor de la estadística 
de prueba sea poco probable. Puede entonces optarse por rechazar H debido a que 
esta decisión tendrá una alta probabilidad de ser correcta. 

Se recomienda el cálculo del valor p acoplado con el enfoque clásico de escoger 
un tamaño del error de tipo I antes de la determinación de la muestra aleatoria. En- 
tonces, la decisión de rechazar o no a H puede basarse en una región crítica de tama- 
ño a, con el valor p proporcionando una medida real en términos de la probabilidad 
de que la decisión sea correcta. De acuerdo con lo anterior, se sugiere la siguiente 
regla: si el valor p es menor o igual a a, se rechaza H ; de otra forma no puede re- 
chazarse la hipótesis nula. El cálculo del valor p se ilustrará en los ejemplos sub- 
secuentes de este capítulo. Debe notarse que muchos paquetes estadísticos para 
computadora, tales como SAS, SPSS, BMD y otros, imprimen el valor p para casi 
todas las situaciones en las que se involucra, de alguna manera, la prueba de hipóte- 
sis estadísticas. 



9.6 Prueba de hipótesis con respecto a las medias cuando se 
muestrean distribuciones normales 

En esta sección se estudiará la prueba de hipótesis sobre la media de una distribución 
normal o las medias de dos distribuciones normales independientes. Se examinarán 
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los casos en los que los valores de las varianzas son tanto conocidos como no conoci- 
dos. Se invita al lector a que consulte las secciones 8.4. 1 a 8.4.3 para efectuar com- 
paraciones con los intervalos de confianza. , - •- — ... 

9.6.1 Pruebas para una muestra ( 

Sea X t -, X 2 , ...,X„ una muestra aleatoria de una^ distribución normal con media/i. 
desconocida. En este caso el interés recae en probar uno de los siguientes conjuntos 
de hipótesis con respecto a n. 

Ha- M = Mo H : i¿ = fío H : /Ji = ^ 

Primero, supóngase que el valor de la varianza poblacional cr 2 es conocido. Enton- 
ces la estadística de prueba es la media muestral X, misma que, bajo la hipótesis 
nula, tiene una distribución normal con media /¿o y desviación estándar ar/yñ. La 
región critica üe tamaño a para la hipótesis bilateral es de la forma 



Rechazar H si < 



X > -Xj-a/2 

or (9.8) 

X *£ X a / 2 , 



donde x,_ a/2 y x a/2 son los valores cuan tiles críticos de X de manera tal que 
P{X 3= jr,_ a/2 ) = a/2 and P(X « x a/2 ) = a/2. 
Dado que bajo H , X ~ M/^o, o-/V"). entonces en forma equivalente 



/V" / V <r/V« 



_ -^ I -q/2 Mo _ -Xq/2 Mo 

¿I -a/2 - /- y Z«/2 - /- . 

cr/V« 0-/V» 

en donde z, _ a/2 y 2„/2 son los correspondientes valores cuantiles de Z. Por lo tanto, 
se sigue que H debe rechazarse cuando un valor x de la media muestral X es tal 
que 

_ _ <rz\- a ,2 , _ „ Q" Zg/2 . 

x^ -=- + /¿o o x=£ — j=- + ¡x . 

V" V" 

De manera equivalente, se rechazará H cuando 

Z^Z,- a/2 O Z^Z a /2, 

donde z = (x - /¿ )/(o-/V") es el valor de la correspondiente normal estándar al 
valor I del. 
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Para la hipótesis alternativa unilateral //,: ¡x > p. > la región crítica de tamaño 
a es el extremo derecho de la distribución de muestreo de X; ésta es de la forma 



Rechazar H si X 5= x, 



(9.9) 



en donde x, _„ es el valor cuantil de X, tal que P(X ^ x, _„) = a. En forma simi- 
lar, para la hipótesis alternativa //,: ¡x'< ¡x , la región crítica es de la forma 



Rechazar //„ si X =£ x a 



(9.10) 



en donde el valor x a es tal que P{X =s x„) = a. 

En la figura 9.8 se ilustran las regiones críticas para las hipótesis unilaterales en 
términos de la estadística X y su transformación a la variable aleatoria normal es- 
tándar Z. En la tabla 9.5 se proporciona un resumen de los criterios de rechazo para 
la pueba de hipótesis con respecto a la media de una distribución normal con varian- 
za conocida. 

Antes de resolver un ejemplo, se desarrollará una expresión general para la deter- 
minación del error de tipo II para uno de los casos. Considérese la hipótesis 
nula H : ¡x - ¡x contra la alternativa //,: n > ix . Supóngase que en realidad 
ix = ix, > ¡x . De acuerdo con (9.9), no puede rechazarse H si un valor de X es 
menor que (o- z, -J\Jri) + ¡x . Dado que la probabilidad del error de tipo II es igual 



Rechazar Hq 



Región crítica 
de tamaño a 



Rechazar Hq 



f(x | Hq) 

Rechazar Hq 




Región crítica 
de tamaño a 



Í(z\Hq) 




MU ; 

/ ' \ 
/ 1 \ 


r l-a 
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Rechazar Hq 
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b) H\ :h>hq 



FIGURA 9.8 Regiones críticas para hioótesis alternativas unilaterales 
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TABLA 9.5 Criterios de rechazo para la prueba de hipótesis con respecto a la media de una 
distribución normal con varianza conocida 



Hipótesis nula 



Valor de la estadística de prueba bajo H 



ffo- M = Mo 



Hipótesis alternativa 



z = 



Mo 



r/Vn 



Criterios de rechazo 






Rechazar H cuando z =£ z a/2 o cuando z ** Z\- a /i 
Rechazar H a cuando z 3= Z\- a 
Rechazar H cuando z « z a 



a la probabilidad de no rechazar un H falsa, es necesario determinar 



/3 = rix<^ + fí0 



V~n 



la que en términos de la normal estándar es 



M = Mi >Mo)> 



o-z. 



f3 = P 



Z< 



V" 



+ Mo - Mi 



cr/V" 



M = Mi 



(9.11) 



Al sustituir cualquier valor /a, de la hipótesis alternativa en (9.11), se puede 
calcular el correspondiente valor de la probabilidad del error de tipo II y, de esta 
forma, la potencia. Nótese que ¡3 (y la potencia) dependen del tamaño de la muestra 
n, del tamaño a, del error de tipo I, de la diferencia {p*> - /ti) entre el valor pro- 
puesto Mo bajo H y el verdadero valor Mt bajo//,, y de la desviación estándar cr 
de la población. Para un valor fijo de a, (jl¿ - Mi) Y CT > e ^ tamaño del error de ti- 
po II disminuye conforme n aumenta. Para valores fijos de n, (p^ — p. { ) y o-, fi 
aumenta conforme a disminuye. Y para valores fijos de n, a, y o-, fi disminuye 
conforme la diferencia (/u. - Mi) aumenta. 

Para otros casos, se pueden desarrollar expresiones similares a (9.11). El 
comportamiento general del tamaño del error de tipo II como una función de n, a, 
(/t - /x, >, y o- es igual al anterior. 

Ejemplo 9.6 Los siguientes datos representan los tiempos de armado para 20 unida- 
des seleccionadas aleatoriamente: 9.8, 10.4, 10.6, 9.6, 9.7, 9.9, 10.9, 11.1, 9.6, 10.2, 
10.3, 9.6, 9.9, 1 1 .2, 10.6, 9.8, 10.5, 10. 1 , 10.5, 9.7. Supóngase que el tiempo necesa- 
rio para armar una unidad es una variable aleatoria normal con media p. y desvia- 
ción etándar a = 0.6 minutos. Con base en esta muestra, ¿existe alguna razón para 
creer, a un nivel de 0.05, que el tiempo de armado promedio es mayor de 10 minu- 
tos? 
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Considérese la hipótesis nula 

H Q : ¡x = 10 

contra la alternativa 

#,:/*> 10. 

Si puede rechazarse a H con a = 0.05, entonces existe una razón para creer que el 
tiempo necesario para armar una unidad es mayor de 10 minutos. Dado que P(Z s* 
1 .645) = 0.05, el valor crítico en términos de la variable aleatoria normal estándar 
es Z0.95 = 1 -645. De los datos de la muestra, el valor x es igual a 10.2 minutos. En- 
tonces 

z = l^p = io^io =l4907 

a/y/n 0.6/V20 

Dado que z = 1.4907 < zom = 1.645, no puede rechazarse la hipótesis nula. El 
valor p en este caso es la probabilidad de que la variable aleatoria normal estándar 
sea mayor o igual al valor de 1.4907, dando como resultado que H sea cierta. 
Puede verse, de la tabla D del apéndice, que 

P(Z 3= 1.4907 | ix =' 10) = 0.0681. 

Puesto que p - 0.0681 > a = 0.05, se concluye que con base en la muestra no 
existe la suficiente evidencia para rechazar la hipótesis de que el tiempo promedio 
necesario para armar una unidad es de 10 minutos. 

En el contexto de este ejemplo, supóngase que se desea dar respuesta a la siguien- 
te pregunta. Si el verdadero tiempo promedio necesario para armar una unidad es de 
10.3 minutos, ¿cuál es la probabilidad de rechazar la hipótesis nula? En este caso se 
desea obtener la potencia de la prueba para detectar la falta de veracidad de H cuan- 
do el valor verdadero es de 10.3 minutos. Primero se obtendrá el tamaño del error de 
tipo II. Mediante el uso de (9.11) se tiene 



p = P\ Z < - V 



<0-«XK645) + 10 _ 10J 



p. = 10.3 



0.6/V20 

= P(Z< -0.59 I ^ = 10.3) 

= 0.2776. 

De esta forma la probabilidad de equivocarse al rechazar H cuando la media es 10.3 
minutos, es igual a 0.2776. Por lo tanto, potencia = 1 - /? = 0.7224. Si se sigue 
este procedimiento se obtienen /3 y las probabilidades de potencia para otros valores 
de fí bajo la hipótesis alternativa, tal y como se encuentran resumidos en la tabla 
9.6. Nótese que conforme la diferencia entre el valor propuesto de la media bajo H 
y el valor verdadero bajo H\ aumenta, la potencia de la prueba también aumenta. 

Supóngase que se tiene la misma situación pero con la excepción de que no se co- 
noce el valor de la varianza poblacional cr 2 .Con base en la sección 8.4.2, la mejor es- 
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TABLA 9.6 Error de tipo II y probabilidades de potencia para el ejemplo 9.6 



H. 10.01 


10.1 


10.2 


10.3 


10.4 


10.5 


10.6 


10.7 


0.9418 
Potencia 0.0582 


0.8159 
0.1841 


0.5596 
0.4404 


0,2776 
0.7224 


0.0901 
0.9099 


0.0188 
0.9812 


0.0024 
0.9976 


0.0002 
0.9998 



tadística de prueba a utilizar en este caso tiene una distribución t de Student. Éste es, 
bajo la hipótesis nula //„: /x = p. la estadística 

= x ~ ho 
S/y/n 

tiene una distribución t de Student con n - 1 grados de libertad. El lector debe t;ner 
muy poca dificultad al reconocer que mediante el empleo de la distribución / de Stu- 
dent, las regiones críticas para este caso son similares a las del caso anterior con res- 
pecto a las hipótesis alternativas uni o bilaterales. En la tabla 9.7 se proporciona un 
resumen. 

Ejemplo 9. 7 Mediante el empleo de los datos del ejemplo 8.9, demostrar que para 
cualquier valor propuesto /u, para /u. que se encuentre en el interior de un intervalo 
de confianza del 95%, una prueba de la hipótesis 

H : p. = /x 
contra la alternativa 

H x : i¿ t¿ ix 

no llevará al rechazo de H para a = 0.05. 

Recuérdese la sección 8.4.2 en la que un intervalo del 95% de confianza para p. 
es 500.45-507.05. Es necesario demostrar que los límites 500.45 y 507.05 coinciden 



TABLA 9.7 Criterios de rechazo para probar hipótesis con respecto a la media de una 
distribución normal con varianza desconocida 

Hipótesis nula Valor de la estadística de prueba bajo H a 



H„: ix. = /x„ 



Mo 



s/y/n 



Hipótesis alternativa Criterios de rechazo 

//,: ¿i J= fx ( , Rechazar //„ cuando / =s /,,,,„_, o cuando/ 3= t¡ .„/:.„- 1 

//,: ju.,> /Li Rechazar H n cuando t 3= /,-„.„-■ 

H,: fj. < un Rechazar //„ cuando / « t u .„-\ 
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con los límites de los valores propuestos Mo bajo H que llevan al rechazo de la hi- 
pótesis nula. Dado que x = 503.75 y s = 6.2 para el limite 500.45 se tiene 

= 503.75 - 500.45 
6.2/VÍ6 

y para el limite 507.05 

, = 503.75 - 507.05 = ^ 
6.2/V16 

Pero los valores ±2.131 son los límites de la región crítica bilateral de tamaño a = 
0.05 y 15 grados de libertad. En otras palabras, si /¿o ^ 500.45, entonces/ 2* 2.131, 
y si fio & 507 . 05 , / =£ - 2 . 1 3 1 . De esta forma, cualquier valor propuesto no interior 
a 500.45 y 507.05 no llevará al rechazo de // O con a = 0.05. 

Para ilustrar el cálculo del valor p en el contexto de este ejemplo, considérese la 
siguiente hipótesis nula 

H Q :¡i = 508 
contra la alternativa 

H,:il + 508. 

Dado que el valor propuesto de 508 se encuentra fuera del intervalo de confianza del 
95%, H será rechazada a un nivel a = 0.05. Para obtener el valor p se calcula el 
valor de la estadística de prueba, el cual es 

503.75 - 508 

/ = -=— = -2.7 '42. 

6.2A/16 

Dado que la hipótesis alternativa es bilateral, el valor p está dado por 

P(|7| ^ 2.742) = P(T*¿ -2.742) + P(T s= 2.742), 

en donde T es una variable aleatoria t de Student con 15 grados de libertad. En la 
tabla F del apéndice puede observarse que es necesario interpolar entre los valores 
cuantiles / ()99 i, = 2.602 y / .w. i? = 2.947. Entonces t a992 . u = 2.742, y el valor/? 
es, en forma aproximada, 0.016. Por lo tanto, si la hipótesis nula es cierta, existe 
una oportunidad menor de] 2% para observar un valor de la distribución / de Stu- 
dent con 15 grados de libertad cuya magnitud sea igual o mayor al valor observado 
de 2.742. 

La determinación de la potencia y de las probabilidades de los errores de tipo II 
para la estadística Tes algo más difícil que en el caso previo, el cual involucraba una 
distribución normal. La dificultad surge debido a que la distribución de la 
estadística de prueba, si H es falsa, no es exactamente igual a la distribución t de 
Student. De hecho, bajo la hipótesis alternativa la estadística tiene lo que se conoce 
como una distribución t no central, la cual difiere de la ordinaria t de Student por la 
introducción de un parámetro adicional. El parámetro, denotado por 8, se define 
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por 

y expresa la diferencia entre el verdadero valor de ¡j. bajo //, y el valor propuesto ¡aq 
bajo H en términos de o\ Como resultado se tiene que la función de potencia de la 
estadística T depende tanto de los grados de libertad v y de 5. En este caso existen las 
curvas CO como funciones de 5 y del tamaño de la muestra n tanto para las hipóte- 
sis alternativas unilaterales como para las bilaterales (véase [ 1 ]). Éstas revelan el mis- 
mo comportamiento para el tamaño del error de tipo II con respecto a n, a, y la 
diferencia entre los valores bajo H, y H al igual que en el caso previo. Debe notarse 
que para muestras de tamaño relativamente grande, por ejemplo mayor que 30, el 
cálculo de la potencia para la estadística Tse puede manejar en forma adecuada me- 
diante el empleo de la aproximación normal. 

9.6.2 Pruebas para dos muestras 

Sean X t , X 2 X„^ y K,, Y 2 Y, h muestras aleatorias provenientes de dos dis- 
tribuciones normales independientes con medias Ma y M> y varianzas <r¿ y a\, res- 
pectivamente. Supóngase que se desea probar la hipótesis nula 

Ho- fJ-x ~ Hy = So 

contra una de las siguientes alternativas: 

H,: ¡x x - fjL r ^ 8„ H,: i*. x ~ M> > $<> Hi'- M.v - V-y < 5 , 

en donde 8 es una cantidad que toma valores positivos o cero y la cual representa la 
diferencia propuesta entre los valores desconocidos de las medias. Supóngase que las 
varianzas de la población se conocen. De las discusiones en las secciones 7.7, 8.4.3 y 
el material precedente de este capítulo, es razonable concluir que la estadística de 
prueba apropiada es la diferencia muestral media X - Y. En particular, si un valor 
de X - Y con base en la muestra aleatoria es lo suficientemente diferente, mayor o 
menor que S , se rechazará la hipótesis nula dependiendo de la hipótesis alternativa 
en cuestión. Una transformación a la distribución normal estándar da origen a una 
forma equivalente de la prueba estadística dada por (8.41). En la tabla 9.8 se propor- 
ciona un resumen de la información pertinente para este caso. 

Ejemplo 9.8 Supóngase que se tienen muestras aleatorias de igual tamaño n de dos 
distribuciones normales independientes con varianzas conocidas <r; y °"i-> ' as cuales 
se emplean para probar la hipótesis nula 

contra la alternativa 

H\~- M.v - Mk = 8, > 8 D . 
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TABLA 9.8 Criterios, de rechazo para la prueba de hipótesis con respecto a las medias de dos 
distribuciones normales e independientes con varianzas conocidas 



Hipótesis nula 



Valor de la estadística de prueba bajo H„ 



Ho- f-x ~ Mr - 5o 



Hipótesis alternativa 



z - 



y(T' x (Ty 
T x + ~h~ Y 



Criterios de rechazo 



H\: Hx ~ Mr f 
H)- M* ~ Mr > So 
H\: Mx ~ Mr < Sp 



Rechazar H cuando z =s z„ /; o cuando z 3= zi- a /2 
Rechazar //„ cuando z s z,- a 
Rechazar //„ cuando z =s z* 



Si se especifican los tamaños particulares a y ¡3 de los errores de tipo 1 y de tipo 11, 
respectivamente, obtener una expresión para n. 

Si H es realmente cierta, la probabilidad de rechazarla es a; y si H es falsa 
(/x* - fi Y = 8, > 8 ), la probabilidad de no rechazar H es /3. Sea c el valor critico 
, con respecto a la distribución de muestreo de X — Y. Entonces H será rechazada 
cuando x - y s= c , tal que 

P(X -Y^c \fi x - Mk=8o) = «• 
En términos de la variable aleatoria normal estándar, lo anterior es equivalente a 



P Z2= 



c - S 



H 



+ Cr\ 



M* - Mr = S = oí- 



Dado que pueden determinarse valores cuantiles z,- a de la normal entándar tales 
que 



se tiene 



co - So 



a x + <T'y 



— — Z\- a - 



(9.12) 



Si M* - Mr = 8, > 8 , entonces la probabilidad de no rechazar a H es /3. Por 
lo tanto 



P(X - Y<c \n x - Mr = 8.) = £, 
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que en términos de la variable normal estándar es 



P\Z< c ° Sl 



^ 



<r\ 



8, = fi. 



Pero el valor cuantil zp debe ser un punto de la normal estándar tal que 

P(Z < i,,) = (3. 
Entonces se sigue que 

c - S, 



<j\ + CTy 



= z $ . (9.13) 



Debe notarse que puesto que es poco probable que j3 sea menor que 0.05, el valor 
cuantil Zp es negativo. 

Nótese que las ecuaciones (9.12) y (9.13) contienen dos incógnitas: c y n. Para 
resolver para n, primero se resolverán ambas ecuaciones para c . 



Co = *,_. /zLt£r + a„, 



\ o"x + Q" 
n 

Al igualar ambos miembros derechos, se tiene 



n 



/ZLLZY-+ 6ü = z JÚ±jñ + Sl 



M + g Mz,- n -"z <B ) = g, -So. 

> AI 

Dado que para la normal estándar — ^ = r.i-^, 

— (-l-a + Z\-p) = S| - 8„. 

la cual, después de resolver para n, se reduce a 



= (<r|+ q-^q,.. + z,-,,) 1 
" ■ (8, - So) 2 



(9.14) 
La expresión (9.14) determina el tamaño de cada una de las dos muestras aleato- 
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rias en las dos distribuciones normales independientes, asegurando probabilidades a 
y /3 para los errores de tipo I y tipo II, respectivamente, cuando se prueba 

contra 

//i: Hx ~ Mk = 8, > So- 
Para un ejemplo específico, sean o-^ = 25, a\ - 20, 8 - 5, 8, = 8, a = 0.05, 
y /3 = 0.10. Entonces z„ 9 , = 1.645, z l(90 = 1.28, y 

(25 + 20)( 1.645 + I.28) 2 

n = — i = 43. 

(8 - 5)- 

Se invita al lector a que obtenga una expresión similar para la hipótesis alternati- 
va del lado izquierdo. Para una hipótesis alternativa bilateral, es posible obtener una 
aproximación del tamaño de n mediante el empleo de la expresión (9.14) y reempla- 
zando a con a/2. A pesar de que este enfoque no es exacto, para muchas situaciones 
prácticas es suficiente. 

A continuación se examinará el caso en el que el valor de la varianza no se cono- 
ce; si las varianzas o> y cr\ no se conocen pero se supone que son iguales, entonces 
para la hipótesis nula 

la estadística de prueba es 



H». fi x - fj. Y - S 
T X - Y - 8„ 



'pJ— + — 



(9.15) 



la cual tiene una distribución t de Student con n x + n r — 2 grados de libertad. El 
estimador combinado S 2 P de la varianza común o- 2 está dado por la expresión (7.28). 
De las discusiones anteriores, las regiones críticas de tamaño a para las hipótesis al- 
ternativas uni y bilateral, deben ser evidentes. Éstas se encuentran resumidas en la 
tabla 9.9. 

Ejemplo 9.9 En forma reciente se ha incrementado el interés de evaluar el efecto 
del ruido sobre la habilidad de las personas para llevar a cabo una determinada tarea. 
Un investigador diseña un experimento en el que se pedirá a un determinado número 
de sujetos que lleven a cabo una tarea específica en un medio controlado y bajo dos 
niveles diferentes de ruido de fondo. El investigador selecciona 32 personas que son 
capaces de realizar la misma tarea y de manera práctica en el mismo tiempo. Del 
total de personas, 16 seleccionadas al azar realizarán esta tarea bajo un nivel modes- 
to de ruido de fondo. Las restantes 16 llevarán a cabo la misma tarea bajo un ruido 
de nivel 2, el cual es más severo que el ruido de nivel 1 . Los siguientes datos represen- 
tan los tiempos observados (en minutos) que fueron necesarios para completar la ta- 
rea para cada una de las 16 personas de cada nivel. 
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TABLA 9.9 Criterios de rechazo para la prueba de hipótesis con respecto a las medias de dos 
distribuciones normales e independientes con varianzas iguales pero desconocidas 



Hipótesis nula 



Valor de la estadística de prueba bajo H„ 



H»: M* ~ Mr - 8;i 



t = 



y - S„ 



n x n y 



Hipótesis alternativa 



Criterios de rechazo 



H t : m.v - M> ¥= S„ 

H\'- M.v ~ M> > So 
//,: fj-x ~ Mr < 8» 



Rechazar H„ cuando t =s t a 
en donde m = nx + " > ~ 

Rechazar H a cuando / » t,_ a „ 

Rechazar //„ cuando t « f„.„, 



o cuando? 3» /,. 

- ? 



Nivel 1 


14 


12 


15 


15 


11 


16 


17 


12 


14 


13 


18 


13 


18 


15 


16 


11 


Nivel 2 


20 


22 


18 


18 


19 


15 


18 


15 


" > 2 


18 


19 


15 


21 


~>~> 


18 


16 



Asumiendo que estos datos constituyen muestras aleatorias de dos distribuciones 
normales e independientes con varianzas iguales pero no conocidas, ¿existe alguna 
razón para creer que el tiempo promedio para el nivel 2 es mayor por más de dos mi- 
ninos que para el nivel 1 con a = 0.01? 

Sean jjl, y p. 2 las medias desconocidas para los niveles 1 y 2 respectivamente. El 
valor propuesto para la diferencia entre /x 2 y Mi es 8 = 2. En otras palabras, se 
afirma que el valor de ¿u. 2 es mayor que ¿u, por una cantidad igual a dos minutos; 
pero en realidad lo que se desea demostrar es que fi 2 es más grande que Mi por más 
de dos minutos. De acuerdo con lo anterior, considérese la hipótesis nula 



contra la alternativa 



fío- P-i - Mi = 2 



H\- M2 - Mi > 2. 



Dado que a = 0.01 y n, = n 2 = 16, el valor crítico es f 099 30 = 2.457. Délos 
datos se tiene que x , = 14.375, x 2 = 18.5, i, = 2.2767, y s 2 = 2.4495; por lo que el 
estimado combinado de la varianza común es 



(15X2.2767) 2 + 15(2 .4495 ) 2 
16+16-2 



= 5.5917, 



s„ = 2.3647. 
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Entonces el valor de la estadística de prueba es 



, =. " 8 - 5 - l4 ; 375 > - 2 - 2.54,7. 

23647 Jh-k 



Dado que el valor de 2.5417 se encuentra dentro de la región critica de tamaño 0.01, 
se rechaza la hipótesis nula. Bajo H , el valor/? es la probabilidad de que T> 2.5417, en 
donde T~ t de Student con 30 grados de libertad. Mediante el empleo de la tabla F del 
apéndice y después de interpolar, se obtiene que 

P(Ts* 2.5417) = 0.0085. 

Por lo tanto, con base en este experimento, puede concluirse que la diferencia entre 
las medias de los niveles 1 y 2 es mayor de dos minutos estadísticamente discernible 
con valor p de 0.0085 

9.6.3 Reflexión sobre ¡as suposiciones y sensitividad 

Antes de pasar a la siguiente sección, puede ser benéfico el detenerse un momento y 
reflexionar sobre las suposiciones que se han formulado con respecto a las pruebas 
de hipótesis estadísticas sobre las medias. Se ha hecho énfasis con anterioridad, en 
que los procedimientos inferenciales estadísticos proporcionan un camino objetivo y 
veraz para formular inferencias con respecto a las características de la población con 
base en muestras aleatorias. Estos procesos por lo general tienen éxito sólo cuando 
las suposiciones que se han formulado para el desarrollo de las distribuciones de 
muestreo apropiadas se adhieren en forma razonable a la población. Los enfoques 
fortuitos y casuales para la aplicación de los métodos estadísticos, sin una compren- 
sión de sus suposiciones y de las posibles consecuencias si éstas no se satisfacen, 
muchas veces lleva a una mala interpretación y a conclusiones erróneas. 

Como ya se ha visto, la distribución t de Student juega un papel muy importante 
para formular inferencias con respecto a las medias, en forma especial en muestras 
de tamaño modesto. Pero la distribución t se basa en la suposición de que el 
muestreo se lleva a cabo sobre una distribución normal. Si el muestreo no se lleva a 
efecto sobre una distribución normal, el uso de la distribución t de Student es inco- 
rrecto debido a que, por ejemplo, las regiones críticas de tamaño a son probable- 
mente más grandes que el valor que se especifica para a. Sin embargo, en forma 
afortunada, la distribución t es muy robusta, o insensible a la suposición de normali- 
dad, y en forma especial cuando el tamaño de la muestra es mayor o igual a 15. 

Cuando se emplea la distribución t de Student para comparar dos medias, es 
mucho más severo violar la suposición de varianzas iguales que la suposición de nor- 
malidad. Por una razón intuitiva del efecto aparente, supóngase que en realidad se 
están muestreando dos distribuciones normales, una con media /¿ = 100 y desvia- 
ción estándar o- = 20, y la otra con m = 120 y o- = 30. El intervalo cuatro sigma 
de la primera es de 60 a 140 mientras que para la segunda es de 60 a 180. Por lo tan- 
to, puede observarse un valor menor o igual a 140 en cualquiera de las dos pobla- 
ciones. Sin embargo, estos valores no implicarán que exista una diferencia entre 
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las dos medias. Únicamente las observaciones de una segunda muestra que 
sean mayores de 140 empezarían a sugerir una diferencia media aparente, pero su 
número es probablemente demasiado pequeño para hacer la diferencia entre las me- 
dias discernibles. De esta forma, con base en la estadística Tes probable que se lle- 
gue a la conclusión equivocada de que no existe diferencia entre las medias con una 
frecuencia inaceptable debida al desbalance en la variación inherente de las dos dis- 
tribuciones. 

Para cuantificar el efecto de varianzas desiguales se simularon 1 000 muestras 
aleatorias, cada una de tamaño 20 a partir de dos distribuciones normales mediante 
el empleo de paquete IMSL. Para la primera distribución se escogieron los valores 
de la media y de la desviación estándar iguales a 100 y 20, respectivamente. Para la 
segunda se emplearon los valores de 110, 120 y 130 para la media, y los valores de 
25, 30 y 40 para la desviación estándar. De acuerdo con lo anterior se simularon 12 
casos donde para cada par de muestras aleatorias se probó la hipótesis 

H : fx., - fi 7 = 

contra la alternativa 

//,: fí¡ — fí 2 < 

mediante el uso de la estadística T de Student dada por (9.15). Para cada caso se 
determinó el número, de entre 1 000 ensayos, para el que la hipótesis nula no podía 
rechazarse con a = 0.05. De esta forma es posible comparar el tamaño del error 
de tipo II para cada caso contra el valor correspondiente que puede obtenerse de las 
curvas CO en [1], cuando ambas desviaciones estándar tienen un valor igual a 20. Las 
probabilidades para el error de tipo II se dan en la tabla 9. 10. Cuando se comparan los 
valores /3 para varianzas iguales, existe un incremento apreciable en el tamaño del 
error de tipo II conforme la diferencia entre las varianzas es más pronunciada. Por lo 
tanto, el efecto de violar la suposición de varianzas iguales cuando se comparan las 
medias puede ser sustancial. 

Ahora se examinará el efecto en el tamaño del error de tipo I si se viola la suposi- 
ción de varianzas iguales. Esto es, si se supone que H es cierta, ¿qué efecto pueden 
tener las varianzas desiguales sobre al Scheffé [4] determinó que si los tamaños de 
las muestras n, y n 2 son grandes pero iguales, la estadística Fes considerablemente 
más robusta a la suposición de varianzas iguales cuando se comparan dos medias. 
La tabla 9. 1 1 (véase [4] para los detalles) contiene el tamaño del error de tipo I con 



TABLA 9.10 Probabilidades /3 simuladas para el efecto de varianzas desiguales cuando se 
comparan dos medias (¿a, = 100, o-, = 20) 



o-, = 20 cr, = 25 a 2 = 30 o> = 40 



Mz = 110 0.550 0.626 0.687 0.758 

/u 2 = I20> 0.065 0.139 0.209 0.389 

M; = 130 0.002 0.008 0.021 0.093 
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TABLA 9.11 Probabilidades a para el efecto de varianzas desiguales cuando se comparan 
dos medias 



o\la\ 






1/5 


1/2 


1 


2 


5 


"i/": 


1 

2 
5 


0.050 
0.120 
0.220 


0.050 
0.080 
0.120 


0.050 
0.050 
0.050 


0.050 
0.029 
0.014 


0.050 
0.014 
0.002 



base en un intervalo de confianza del 95% para /n, - jl¿ 2 como una función del co- 
ciente de los dos tamaños muéstrales y el cociente de las dos varianzas. Nótese que el 
tamaño del error de tipo I no cambia en el primer renglón con respecto a su valor 
preestablecido de 0.05, aun a pesar de que el cociente de las varianzas cambie. 

A través de toda la discusión de la inferencia estadística se ha supuesto que se ob- 
tiene una muestra aleatoria y que por lo tanto las observaciones se encuentran inde- 
pendientemente distribuidas. Si estas suposiciones no se cumplen, es probable que 
cualquier inferencia estadística que se formule sea errónea sin importar el tamaño de 
la muestra. Aún así, la suposición que, en forma probable, es la que se viola, la ma- 
yoría de ; las veces es la de una muestra aleatoria. 

Relacionado en forma cercana al concepto de aleatoriedad, es la selección de la 
muestra cuando las medias de los dos niveles (o más, como se estudiará mas adelan- 
te) se comparan entre sí. Con propósitos de ilustración, recuérdese el ejemplo 9.9. 
Dado que se seleccionaron 16 personas aleatoriamente para desempeñar la tarea 
dada bajo el nivel 1 , se deduce que las personas que realizaron la tarea en el nivel 2 
también fueron seleccionadas de manera aleatoria. Este procedimiento asegura una 
asignación imparcial de cuáles de las 32 personas se encontrarán sujetas a un deter- 
minado nivel de ruido. En inferencia estadística este proceso de selección imparcial 
recibe el nombre de aleatorización. El principio de aleatorización protege contra la 
introducción de sesgo sistemático en la asignación de personas u objetos a diferentes 
niveles y por ello consolida la credibilidad de la inminente comparación. 

Se ha visto cómo las diferencias inherentes en la variabilidad pueden oscurecer la 
comparación entre dos medias. Muchas veces, durante el proceso de observar datos 
muéstrales, factores externos no controlados pueden causar diferencias en la varia- 
bilidad. Sin embargo, mediante la adhesión al principio de aleatorización, estos fac- 
tores externos probablemente tengan un efecto balanceado sobre las mediciones 
bajo los dos niveles de interés. Por ejemplo, en el problema del ruido, factores tales 
como el estado de ánimo del individuo en el momento de realizar la tarea no pueden 
ser controlados. El principio de aleatorización tiende a neutralizar tales efectos. 

9.6.4 Prueba sobre las medias cuando las observaciones están pareadas 

De la última sección recuérdese que cuando se comparan las medias de dos niveles, 
es deseable tener a las personas u objetos que producirán las observaciones dentro de 
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cada nivel, tan homogéneas como sea posible. Si existe un efecto debido a factores 
externos, éstos pueden neutralizarse mediante la aplicación del principio de aleatoria 
zación. También es posible controlar la variación no deseada controlando los facto- 
res extraños. Esto se logra tomando las observaciones en pares, donde se supone que 
las condiciones externas son las mismas para cada par pero pueden variar de par 
en par. En forma general, existe una relación natural entre las observaciones de un 
par. Esto es, para cada par se selecciona una personal objeto al azar y se somete a 
ambos niveles de interés. A pesar de que se desea determinar si existe alguna diferen- 
cia entre las medias, no puede considerarse a los pares como dos muestras aleatorias 
independientes. 

Como ilustración, se examinará el siguiente problema: un investigador médico se 
interesa en determinar si un fármaco experimental tiene el efecto colateral no desea- 
ble de elevar la presión sistótica sanguínea. Para conducir un estudio de amplia co- 
bertura se seleccionan en forma aleatoria n personas de diferentes edades y condicio- 
nes de salud. En un ambiente controlado de laboratorio se toma la presión sanguí- 
nea de los n sujetos y se les administra el fármaco durante un lapso adecuado de 
tiempo después del cual se les vuelve a tomar la presión sanguínea. 

Sean (A",. Y,)AX 2 ,Y 2 ) (X„,Y„) los n pares, donde (X„ Y¡) denota la pre- 
sión sistólica sanguínea del /-ésimo sujeto antes y después de adiministrar el medica- 
mento. Nótese que en este caso los factores externos son la condición del individuo 
en relación con su edad, su salud y otras pecualiaridades que pueden tener un efecto 
único sobre la presión sanguínea. Puesto que cada sujeto forma un par, el efecto de 
los factores externos sobre la presión sanguínea se encuentra entre los pares y cual- 
quier diferencia sustancial de la presión dentro de cada par puede atribuirse al efec- 
to de la droga. Así, al tomar la diferencia entre las dos observaciones de cada par es 
posible remover (bloquear) la variabilidad en la presión sanguínea a consecuencia de 
los factores externos. Esto hace posible una comparación válida de la presión sanguí- 
nea antes y después de administrar el medicametno. Por lo tanto, el interés se centra 
en la columna de diferencias de la tabla 9.12 generada al restar una observación de la 
otra para cada par. 

Se supone que las diferencias D,,D 2 D„ constituyen variables aleatorias in- 
dependientes distribuidas normales tales que E{D¡) = fí D y Var{D¡) = <rb para 
toda / = I. 2, .... n. Lo anterior es posible si se supone independencia entre los pa- 



TABLA 9.12 Diferencias entre las observaciones en un experimento 

Número de par Nivel 1 Nivel 2 Diferencia 

(persona) (PS antes) (PS después) Y - X* 

1 X, K, D, = K, - A*, 

2 A"; Y-, D, = Y 2 - X, 



X„ Y. D„ = Y, - X„ 



" Puede tomarse fácilmente la diferencia X — Y. 
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res (pero no necesariamente entre los valores de éstos) de manera tal que Efl¡) = /x, 
y E( Y ¡) = n¡ + fi D para /' = 1 , 2 ... n. De esta forma para el /-ésimo par, los valo- 
res esperados difieren por una constante, la cual es el valor esperado de Ó, para /' = 
1, 2 ... n. Además, Var(X¡) = o* y Var(Y¡) = <t\ son desconocidas y no necesa- 
riamente iguales, pero se supone que son constantes para toda / = 1, 2, ..., n. 

En el contexto del problema de la presión sanguínea, lo que se está diciendo es lo 
siguiente: la constante Md es la diferencia media en la presión sanguínea como con- 
secuencia del medicamento. Aun a pesar de que las presiones sanguíneas promedio 
varían de persona a persona por las diferencias en las condiciones de salud, se piensa 
que Md es probablemente igual para todas las personas. Nótese que si fi D fuese 
cero, esto podría sugerir que el medicamento no tiene ningún efecto sobre la presión 
sanguínea. Por otro lado, si Md es mayor que cero, esto podría indicar un incremen- 
to de la presión sanguínea promedio a consecuencia del medicamento. La varianza 
o-¿ de las diferencias en la presión sanguínea no es conocida y depende de las varian- 
zas antes y después de administrarse el medicamento. A pesar de que las varianzas 
o* y «"y pueden ser dife r entes, se supone que son constantes de persona a persona. 

La discusión anterior demuestra que se pueden formular inferencias sobre las 
medias de dos niveles cuando las observaciones están pareadas al considerar la co- 
lumna de diferencias como una sola variable aleatoria y al aplicar los métodos de la 
sección 9.6.1. Bajo la hipótesis nula 

la estadística 

r = ^^2 (9.16) 

S D /\/n 
tiene una distribución t de Student con n - 1 grados de libertad, en donde 

n 

5=2 DJn 



S 2 D = 2 (A - D) 2 /(n - 1). 

Las regiones críticas de tamaño a para las hipótesis alternativas uni y bilaterales se 
encuentran resumidas en la tabla 9.13. 

Ejemplo 9.10 En el problema anterior de la presión sanguínea, sea a = 0.01 y 
pruébese la hipótesis nula 

H : Md = 

contra la alternativa 

H t :fi D >0, 
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TABLA 9.13 Criterios de rechazo para la prueba de hipótesis con respecto a las medias 
cuando las observaciones están pareadas 



Hipótesis nula 


Valor de la estadística de prueba bajo H v 


Ho- y-D — So 


t d~S 
sjyjn 


Hipótesis alternativa 


Criterios de rechazo 



H,: ií-d í So Rechazar H cuando/ =s t a/2 . „_, 

o cuando t & /,.„ /2 ,„_, 

//,: fL D > 8o Rechazar H cuando / s* /,_„ „_, 

H,: f-D < 8o Rechazar H„ cuando / « t a „_, 



con base en los datos muéstrales de la tabla 9. 14. 

En la columna de diferencias se tiene que d = 3.75 y s D = 3.7929. De esta 
forma el valor de la estadística de prueba es 

_ ^Ti^o _ 

3.7929/VI2 

Dado que el valor crítico es t 099t ,, = 2.718, se recházala hipótesis nula de no efecto 
del medicamento. Por lo tanto, con base en los resultados de este estudio, un incre- 
mento en el valor promedio de la presión sanguínea es estadísticamente discernible 
con un valor p de 0.0036. 

Es importante notar que en el ejemplo anterior no existe ninguna oportunidad de 
aplicar el principio de aleatorización para remover los posibles sesgos sistemáticos. 



TABLA 9.14 Datos muéstrales para el ejemplo 9.10 



PS PS Diferencias 

Sujeto antes después (después - antes) 

1 128 

2 176 

3 110 

4 149 

5 183 

6 136 

7 118 

8 158 

9 150 

10 130 

11 126 

12 162 



134 


6 


174 


-2 


118 


8 


152 


3 


187 


4 


136 





125 


7 


168 


10 


152 


2 


128 


-2 


130 


4 


167 


5 
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Lo anterior es típico de las situaciones antes-después en las que las observaciones se 
aparean con el propósito de remover efectos externos. Sin embargo, es posible que 
intervengan otros factores externos entre las mediciones y que éstos causen diferen- 
cias sustanciales en las observaciones de algunos pares; esta influencia será acredita- 
da de manera equivocada a los efectos que se están verificando. En el problema de la 
presión sanguínea algunos de los sujetos pueden sufrir cambios en su salud que sean 
independientes del medicamento que se les administra, y estos cambios pueden a su 
vez causar un aumento (o disminución) de la presión sanguínea. El siguiente ejemplo 
proporciona un experimento mejor para comparar dos medias para observaciones 
pareadas. 

Ejemplo 9.11 La investigación ha desarrollado variedades superiores de maíz que 
proporcionarán cantidades más grandes de éste por unidad de tierra. Un investiga- 
dor ha desarrollado una nueva variedad híbrida de este grano y piensa que es supe- 
rior a la mejor variedad disponible. También cree que esta nueva variedad rebasará 
con mucho la producción estándar en varias localidades geográficas. Para verificar 
lo anterior, el investigador diseña el siguiente experimento: se seleccionan 10 parce- 
las de igual tamaño cada una en distinta localidad geográfica. Cada parcela se divide 
en dos secciones iguales, de manera tal que puedan cultivarse las dos variedades en 
cada localidad. Para remover los posibles sesgos sistemáticos, se aplica el principio 
de aleatorización a todas las parcelas para decidir qué sección es la que se cultiva y 
con qué tipo de variedad. Lo anterior se logra lanzando una moneda para decidir la 
variedad. Se controlan tantos factores como es posible; por ejemplo, la temporada 
de siembra, el tipo de fertilizante y el intervalo de aplicación. En el momento de re- 
coger la cosecha, se anotan las toneladas por unidad de área. Supóngase que los da- 
tos que se muestran en la tabla 9.15 son los que se observaron. Con base en estos 
datos, obténgase un intervalo de confianza del 95% para la diferencia media en la 
producción entre las variedades X y Y. 

Antes de proceder con el análisis, debe notarse que se están bloqueando los fac- 
tores externos como resultado del apareamiento en la localidad geográfica. En situa- 
ciones de este tipo, existe muy poca duda con respecto a que las condiciones de la 
tierra y otros efectos probablemente no sean los mismos en las diferentes localida- 
des. De esta forma existe una gran oportunidad para observar un efecto sustancial 
sobre la producción a consecuencia de la localidad. También, nótese que esta oportu- 
nidad se presenta al aleatorizar la asignación de variedades a las parcelas para remo- 
ver cualquier sesgo sistemático. 



TABLA 9.15 Datos muéstrales para el ejemplo 9.1 1 



Tipo 


/-, 


¿: 


¿ } 


¿4 


L< 


/-„ 


L- 


/-» 


L„ 


L¡o 


Variedad A' 


23 


35 


29 


42 


33 


19 


37 


24 


35 


26 


( estándar ) 






















Variedad Y 


26 


39 


35 


40 


38 


24 


36 


27 


41 


27 


(nueva) 
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Para obtener el intervalo de confianza deseado, las diferencias entre las produc- 
ciones de Xy y en las 10 localidades son -3, -4, -6, 2, -5, -5, 1, -3, -6, y 
-1. Con base en éstas, d - -3 ys = 2.8284. Asumiendo que estas diferencias 
son los valores de dos variables aleatorias independientes y normalmente distribui- 
das, un intervalo de confianza del 95% para fi D es 



d ± t 



s D \ 



975. 9 



Víó' 



-3 ± (2.262)(2.8284/Vl0), 

el que se reduce al intervalo ( - 5.0232, -0.9768). Dado que el valor cero no se in- 
cluye en este intervalo, se rechaza la correspondiente hipótesis nula de que la dife- 
rencia es cero a un nivel de a = 0.05 

Rcult_ apropiado colocar el problema de comparar las medias de dos niveles 
en una mejor perspectiva para justificar la planeación de un experimento con base en 
muestras independientes o con base en muestras pareadas. Sean X y y los dos nive- 
les de interés, asumiendo un tamaño n igual para las dos muestras independientes y n 
pares de observaciones. Dado que lo que se desea en cualquiera de los casos es una 
inferencia^ con_respecto a la diferencia entre las medias, la estadística para ambos 
casos es X - Y. De esta manera, bajo la suposición de que se muestrean distribucio- 
nes normales un intervalo de confianza del 100(1 - a)9c para la diferencia 
media en cualquiera de los casos es de la forma general 

(X - Y) ± /,_„,;.„, d.e.(X -Y). (9.17) 

donde m es el número de grados de libertad. En la expresión (9.17) existen dos térmi- 
nos que difieren en ambos casos. Uno es el valor cuantil t¡ - a/2 , m ; y el otro es la des- 
viación estándar de la estadística X - Y. Cuando las observaciones son pareadas, el 
valor cuantil es una función de m = n - I grados de libertad, mientras que para 
muestras independientes se basa en m - 2(« - 1 ) grados de libertad. Para un a 
dado, el valor cuantil aumenta conforme el número de grados de libertad disminuye. 
Entonces, un intervalo de confianza para muestras pareadas es más amplio debido a 
la pérdida de grados de libertad. 

A la luz de la información anterior, la desviación estándar de X - K se con- 
vierte en un cambio a mantener en mente cuando se escoge entre muestras indepen- 
dientes o muestras pareadas. Si se permite a un factor extraño, el cual influye en forma 
potencial que varíe, cuando se toman las muestras independientes, la consecuen- 
cia probable es una variabilidad importante entre las observaciones, dando como 
consecuencia un valor grande d.e. (X ■- Y). Al parear las observaciones, es posible 
neutralizar la influencia del factor extraño y mantener su efecto igual dentro de 
cada par. Entonces, las observaciones dentro de cada par estarán probablemente co- 
rrelacionadas. Esto es, para un par dado, es probable que un valor grande de X dé 
como resultado un valor grande de yo viceversa, lo cual da como resultado unaco- 
varianza positiva entre X y Y. Se sigue entonces que, dado \uriX Y)=\^artX) 
+ Vari Y) 2Co\(X, Y), la varianza de X - Y (asi como también la de X - Y) 
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será más pequeña para muestras pareadas que para muestras independientes. Por lo 
tanto, en un experimento bien planeado para observaciones pareadas, la reducción 
en el valor de la desviación estándar de X -.- Y, por lo general compensará el 
aumento en el valor crítico debido a la reducción en el número de grados de libertad. 
Como ilustración, en el ejemplo 9.11 se calculó el estimador s D = 2.8284. Si los 
datos se consideran como muestras independientes de dos distribuciones normales 
con varianzas iguales, un estimado de la varianza común es 

, 9(52.6778) + 9(43.1222) An n 
s p = = 47.9, 

o s p = 6.921 el valor s p = 6.921 es más del doble del valor s D = 2.8284. Al cons- 
truir un intervalo de confianza del 95% para muestras independientes, se obtiene 



-3 ±(2.101X6.921)./-^ + ^, 



=»y¿ 



(-9.5029,3.5029). 

El obvio que no puede rechazarse la hipótesis nula de no diferencia entre las medias, 
si los datos fuesen considerados como muestras independientes. 



9.7 Pruebas de hipótesis con respecto a las varianzas cuando se 
muestrean distribuciones normales 

Se argumentó con anterioridad, que una inferencia con respecto a una varianza es tan 
importante como una con respecto a la media. En medios industriales, por ejemplo, 
la variabilidad de un producto puede ser una medida más importante que el prome- 
dio del producto. Por esta razón, así como también por la necesidad de comprobar 
la hipótesis de varianzas iguales, se presentarán criterios para probar hipótesis* con 
respecto a las varianzas con base en una sola muestra aleatoria o con base en dos 
muestras aleatorias independientes provenientes de distribuciones normales. Como 
era de esperarse, los criterios para probar hipótesis con respecto a las varianzas se 
basan en los correspondientes métodos para construir intervalos de confianza, tal 
como se descutió en las secciones 8.4.4. y 8.4.5. Nuevamente es imperativo hacer én- 
fasis en que estos procedimientos son, en forma especial, sensibles a la suposición de 
normalidad. 

9.7.1 Puebas para una muestra 

Sea X t , X 2 , . . . , X„ una muestra aleatoria de una distribución normal con media M 
desconocida y varianza cr 2 desconocida. Considérese nula la prueba de la siguiente 
hipótesis 

//„: o- 2 = o- 2 
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contra una de las siguientes alternativas 

H,:<r 2 í <rl, H t : a 2 > a 2 , H l :a 2 <a 2 , 

donde o- o es el valor propuesto para a 2 . La estadística de ínteres es -la varianza 
muestra! S 2 . La hipótesis nula será rechazada si la realización de S 2 calculada a par- 
tir de la muestra, es, en forma suficiente, diferente, mayor que o menor que crl, de- 
pendiendo de la hipótesis alternativa. Pero bajo H , la cantidad (n — l)s 2 /al es un 
valor de una variable aleatoria chi-cuadrada con n - 1 grados de libertad. Entonces, 
por ejemplo, si la hipótesis alternativa es //,: a 2 > al, se rechazará a H a si el 
valor de (« - l)s 2 /(rl se encuentra dentro de la región crítica de tamaño a en el la- 
do derecho de la distribución chi-cuadrada con n - 1 grados de libertad. En la tabla 
9.16 se proporciona la información más relevante al respecto. 

Como se notó con anterioridad, la violación de la suposición de que el muestreo 
se lleva a cabo sobre una distribución normal tiene un efecto sustancial cuando se 
emplea la estadística chi-cuadrada para inferencias con respecto a las varianzas. 
Para ilustrar este efecto, se simuló un experimento jimilar al descrito en la sección 
8.4.3. Para un tamaño de la muestra n = 30, se generaron 1 000 muestras aleatorias 
para cada una de las siguientes distribuciones: uniforme, exponencial y gama. Los 
valores de los parámetros de cada distribución se seleccionaron en cada caso para 
proporcionar una varianza de 100. Para cada muestra aleatoria se probó la hipótesis 
nula 

H :a 2 = 100 

contra la alternativa 

H,:a 2 > 100, 

mediante el empleo de la estadística chi-cuadrada con a = 0.05. Para cada distri- 
bución se contó el número de veces para las que se rechazaba la hipótesis nula. Los 
resultados se encuentran en la tabla 9.17. 

Dado que a = 0.05 representa la probabilidad de rechazar una hipótesis cierta 
(tal cual es el caso aquí), se espera que 50 de las 1 000 muestras proporcionen esta de- 



TABLA 9.16 Criterios de rechazo para la prueba de hipótesis con respecto a la varianza de 
una distribución normal con media desconocida 



Hipótesis nula 


Valor de la estadística de prueba bajo H 


u 2 2 
/!(). <T = CT 


X" - 2 


Hipótesis alternativa 


Criterios de rechazo 



H¡: a- 2 j= al Rechazar H cuando x : =* xí-«/2. „-i. o cuando x" *= Xl/i. <■-■ 

H¡: ir 2 > o-o Rechazar H„ cuando \~ =* xí-«. n-i 

H,: a- 2 < al Rechazar //«cuando x 2 « xl. »-i 
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TABLA 9.17 Número de rechazos de la hipótesis nula de entre 1 000 muestras para tres 
distribuciones de igual varianza 



Tipo de distribución y valores de los parámetros 


Uniforme 
(0, V12Ó0) 


Gama 

. Forma = 2; Escala = V50 


Exponencial 
Media = 10 


8 


107 


156 



cisión cuando se muestree una distribución normal. Sin embargo, con base en los re- 
sultados existe una discrepancia suficiente para creer que la estadística chi-cuadrada es 
sensible a la suposición de que el muestreo se lleva a cabo sobre una distribución nor- 
mal. No está por demás notar que los resultados del estudio de simulación son de al- 
guna manera predecibles, especialmente si se comparan los f actúes de forma de las 
distribuciones seleccionadas con los de la distribución normal. La distribución uni- 
forme es sim étrica, al igual que la normal, pero se encuentra definida en el intervalo 
(0, V'200). Como consecuencia, la verosimilitud disminuye porque algunas 
muestras pueden contener valores extremos que pueden aumentar el valor de la va- 
rianza muestral. Así, el número de rechazos es menor que el que se espera. La distri- 
bución exponencial es la que tiene una mayor asimetría de entre las tres distribu- 
ciones seleccionadas y el mayor valor de curtosis. Por lo tanto, no es sorprendente 
que el número de rechazos sea mucho más grande que el correspondiente a una dis- 
tribución normal. La distribución gama, con parámetros de forma y escala iguales a 
2 y V50, respectivamente, se encuentra entre las anteriores ya que su coeficiente de 
asimetría es \íí y su curtosis relativa es 6. 

9.7.2 Pruebas para dos muestras 

Sean X u X 2 , ..., X„ , y Y,, Y 2 , . . . , Y„ dos muestras aleatorias de dos distribucio- 
nes normales independientes con medias desconocidas ^ y fi r y varianzas desco- 
nocidas a\ y cr\. Considérese la prueba de la siguiente hipótesis nula 

H : (j\ = or\ 

contra una de las siguientes alternativas: 

//,: cr.v f ir], H,: <jy > cr] . /Y,: o-.y < a 2 .-. 

Las estadísticas de interés son las varianzas muéstrales S\- y -V; . Por ejemplo, con 
respecto a la hipótesis alternativa bilateral, puede rechazarse la hipótesis nula si el 
estimador .v v es lo suficientemente diferente del estimador s~¡ . De la sección 7.8, 
recuérdese que por virtud de la independencia, las cantidades (n v - 1 )S\/(.t 2 s y (n y 
- l).SV<r; son dos variables aleatorias independientes chi-cuadrada con n x - I 
y ii) - I grados de libertad, respectivamente. Entonces se sigue la estadística 

h = c-/ - 
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tiene una distribución F con n x - 1 y n Y - 1 grados de libertad. Pero bajo la hi- 
pótesis nula, a-ji = a Y , de esta forma la estadística se reduce a 

F = S x /S\. 

Para una hipótesis alternativa bilateral y un tamaño a del error de tipo I, se 
rechazará la hipótesis nula cuando /= s x /s\ "2? f\- a/ 2. „ x -\. „,-i o cuando 
/ s£ 1 //i -„/2. m- 1. n X -\- En la tabla 9.18 se proporciona un resumen completo de 
los criterios de rechazo. 

Como ilustración, recuérdese que en el ejemplo 9.9, se asumió que las varianzas 
eran iguales al comparar las medias para los dos niveles de ruido. Para verificar la 
validez de esta suposición a un nivel de a = 0.1, supóngase que se prueba la hipóte- 
sis 

H : a 2 , = a\ 
contra la alternativa 

Se observa que los valores críticos, izquierdo y derecho, son f ^ , 5 15 = 2.40 y 
I//095. i?. i5 = 1/2.40 = 0.42, respectivamente. Con base en los datos de la muestra 
s] = 5. 1833 y si = 6.0. De esta forma el valor de la estadística de prueba es 

/= 5.1833/6 = 0.8639. 

Dado que / - 0.8639 no es ni mayor ni igual a 2.4, ni menor o igual a 0.42, no es 
posible rechazar la hipótesis nula. De acuerdo con lo anterior, los resultados muéstra- 
les no proporcionan una razón válida para sospechar que está siendo violada la supo- 
sición de varianzas iguales. 



TABLA 9.18 Criterios de rechazo para la prueba de hipótesis con respecto a las varianzas de 
dos distribuciones normales independientes 

Hipótesis nula Valor de la estadística de prueba bajo H„ 

//„: o-.v = a] f = s\/s\ 

Hipótesis alternativa Criterios de rechazo 

., ■> , ■• Rechazar //„ cuando / 3= j] -„,•> „ -i.„ -i. 

o cuando / « I //, _„., „ ( . , „ v _ , 

H, : o-.v > o-; Rechazar H„ cuando f * /i „. „ v _ i. ,,, - 1 

H\: <t\ < al' Rechazar //«cuando /s l//i„. »,-i.», ■-' 
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9.8 Inferencias con respecto a las proporciones de dos distribuciones 
binomiales independientes 

En la sección 8.4.6 se desarrollaron los criterios para la construcción de intervalos de 
confianza para el parámetro de proporción p, cuando se muestrea una distribución 
binomial. En muchas ocasiones, el interés recae en. comparar la proporción de un 
grupo distinto con la de otro, en relación con alguna característica en común. Por 
ejemplo, puede tenerse interés en comparar la proporción de unidades defectuosas 
para un producto dado, que se fabricó por dos compañías que compiten entre sí. O 
puede existir algún interés en comparar las proporciones de estudiantes de prepara- 
toria en dos localidades geográficas diferentes que tienen un número de respuestas 
correctas para la prueba SAT por encima de cierto nivel. De esta forma, es necesario 
entender las ideas presentadas en la sección 8.4.6 para comparar los parámetros de 
proporción cuando se muestrean dos distribuciones binomiales independientes. 

Como ilustración, en un estudio reciente se compararon las proporciones de per- 
sonas zurdas y derechas que fuman. La población general se dividió en dos grupos, 
zurdos y derechos, y cada grupo fue subdividido en amadores y no fumadores. Sea 
p, la proporción de personas zurdas que fuman y p 2 la proporción de personas dere- 
chas que fuman. El interés recae en hacer una comparación entre p, y p 2 . 

Supóngase que los zurdos y los derechos constituyen dos distribuciones binomia- 
les independientes tales que la proporción de fumadores en los dos grupos es p , y p 2 , 
respectivamente. Con base en muestras aleatorias de tamaño «, y n 2 , sean X y y.el 
número observado de personas zurdas y derechas que fuman, respectivamente. Las 
proporciones muéstrales 

P, =*//!„ 

P 2 = Y/n 2 

son los estimadores de máxima verosimilitud de p, y p 2 , respectivamente. Dado que 
por hipótesis Xy Y son variables aleatorias binomiales, las varianzas de los estima- 
dores están dadas por 

VariPt) = VariX/ni) = p,(l - y?,)//i,, 
Var(P 2 ) = Var(Y/n 2 ) = p 2 (\ - p 2 )/n 2 . 

Supóngase que se desea construir un intervalo de confianza muestral grande para 
la diferencia entre p, y p 2 . La estadística de interés es la diferencia entre las dos pro- 
porciones muéstrales. Ya que 

E(P l ) = p l , E(P 2 ) = p 2 , 

entonces, con base en el teorema 6.1 y su corolario dado por la expresión (7.2) 

E(P, - P 2 ) = p, - p 2 , (9.18) 
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Var{P t - P 2 ) = Var(P,) + Var(P 2 ) 

_ PiP ~ P\) P2O ~ Pi) (9.19) 

Con base en una discusión anterior (véase el capítulo 5) puede demostrarse que 
en valores grandes de n¡ y n 2 , la distribución de la estadística P, - P 2 es, en forma 
aproximada, normal con media y varianza dadas por (9.18) y (9.19), respectivamen- 
te. En otras palabras, la distribución de 

Z,_ < ? ' - ? -> - <"■ - "¿- (9.20) 



y 



/*■(! ~ Pi) + P¿1 ~ P2) 
«1 n 2 



es aproximadamente N(Q,\) n x y n 2 . Nótese que el denominador en la expresión 
(9.20) proporciona un estimador de la desviación estándar de la estadística P, - P 2 , 
ya que se han reemplazado las proporciones muéstrales/», yp 2 . Por lo tanto, se sigue 
que para n l y n 2 grandes, la probabilidad del intervalo aleatorio 

[(P, - P 2 ) - zt- a/I d.e.<? l - P 2 ), (P, - P 2 ) + z l . a/2 s.d.(P l - P 2 )] 

es aproximadamente 1 - a, y un intervalo de confianza aproximado del 100(1 - 
a)% para p t — p 2 es: 



KP\ ~ P2) ± Zi-a/2 J + , (9-21) 

V «1 n 2 

en donde p, = x/n, y p 2 = y/n 2 son los estimados de máxima verosimilitud depi 
y p 2 respectivamente. 

Ejemplo 9.12 En un estudio de los hábitos de fumador para personas zurdas y de- 
rechas, una muestra aleatoria de 400 zurdos reveló que 190 de éstos fuman, y en una 
muestra aleatoria de 800 derechos, 300 de éstos fuman. Con base en esta evidencia, 
construir un intervalo de confianza del 98% para la diferencia real entre las propor- 
ciones p, y p 2 . 

Los estimados de las proporciones son 

p, = 190/400 = 0.475, p 2 = 300/800 = 0.375. 

Dado que los tamaños de las muestras son grandes, la aproximación normal es ade- 
cuada para este caso. Para un intervalo de confianza del 98% ¿ .99 = 2.33 y el inter- 
valo de confianza es 



- , ~ .. /(0.475X1 - 0.475) (0.375)0 - 0.375) 
(0.475 - 0.375) ± 2.33 J - + . 
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el cual simplifica al intervalo (0.0295, 0.1705). Dado que este intervalo de confianza 
no incluye al origen y, de hecho, se encuentra a la derecha de éste, puede concluirse 
con un 98% de confiabilidad, que el porcentaje de zurdos que fuman es mayor que 
el correspondiente para las personas derechas. 

Supóngase que el interés recae en probar la hipótesis nula 

Ho'-Pi ~ Pi = 

contra una de las siguientes alternativas: 

H x :p x -p 2 ÍO, H,:p i -p 2 >0, H,: p t - p 2 < 0. 

Dadas muestras aleatorias de tamaños n x y n v considérese la estadística P¡ - P 2 . 
La intuición sugiere que debe rechazarse la hipótesis nula si un valor de la estadística 
es, en forma suficiente, diferente, mayor que, o menor que cero, dependiendo de la hi- 
pótesis alternativa. En forma equivalente, la decisión puede basarse en una prueba 
estadística similar a la dada por (9.20), la cual es aproximadamente N(0, 1) para va- 
lores grandes de n, y n 2 . 

Dado que bajo H se supone que las dos proporciones son iguales, sea p = p , = p 2 
la proporción común. Entonces, si la hipótesis nula es cierta, la estadística P, - P 2 
tiene una distribución, en forma aproximada, normal con media 

E(P t -? 2 ) = 

y desviación estándar 



d.e.("\ - p 2> = 



1 1 



- l Vp<l - p) ) U¡¡; + ¡J- 

Ya que el valor de p no se conoce, se combina la información de las dos muestras 
para obtener el estimador combinado 

X + Y 

p = — —~ • 
n, + n 2 

donde Xy Y son las variables aleatorias que se observaron y que poseen la caracte- 
rística de interés. Entonces un estimado de la desviación estándar de P, - P 2 es 

en donde p = í.v + >•)/(« i + n 2 ) es el estimador combinado de p. Bajo //,, la esta- 
dística 

Z = P ' ~ p2 (9.22) 



(V*l - P)) (J± + ¿) 
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es aproximadamente N(0, 1) para valores grandes de n, y n 2 . Dependiendo de la hi- 
pótesis alternativa, el lector no debe tener dificultad para decidir cuándo rechazar 
H con base en (9.22) dado un tamaño del error de tipo I. 
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Ejercicios 

9.1. Suponga que usted desea probar la hipótesis 

H„: = 5 

contra la alternativa 

H,:0 = 8 

por medio de un solo valor que se observa en una variable aleatoria con densidad de 
probabilidad f{x: 0) = ( l/0)exp( -x/0), x > 0. Si el tamaño máximo del error de tipo 
I que puede tolerarse es de 0.15, ¿cuál de las siguientes pruebas es la mejor para escoger 
entre las dos hipótesis? 

a) Rechazar //„ si X 3= 9 

b) Rechazar //„ s i X s= 10 
C ) Rechazar //„ s i X s II 

9.2. Suponga que usted observa un solo valor de una variable aleatoria cuya función de den- 
sidad está dada por j\x\ 6) = 1/0, < x < 6, y desea probar la hipótesis 



contra la alternativa 

//,: = 15. 

¿cuál de las dos pruebas a) rechazar //„ si X s 8. o b) rechazar //„ si X > 8 es la 
mejor para decidir entre las dos hipótesis? 

9.3. Se sabe que la proporción de artículos defectuosos en un proceso de manufactura es de 
0. 1 5 . El proceso se vigila en forma periódica tomando muestras aleatorias de tamaño 20 
e inspeccionando las unidades. Si se encuentran dos o más unidades defectuosas en la 
muestra, el proceso se detiene y se considera como "fuera de control". 

a) Enunciar las hipótesis nula y alternativa apropiadas. 

b) Obtener la probabilidad del error de tipo I. 

c) Obtener y graficar la función de potencia para los siguientes valores alternativos de la 
proporción de artículos defectuosos: 0.06, 0.08, 0.1, 0.15, 0.2, y-0.25. 
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d) Compárense sus respuestas con las partes b y c para el caso en el que se juzga al pro- 
ceso como fuera de control cuando se encuentran tres o mas defectuosas. 

9.4. La cantidad promedio que se coloca en un recipiente en un proceso de llenado se supone 
que es de 20 onzas. En forma periódica, se escogen al azar 25 recipientes y el contenido 
de cada uno de éstos se pesa. Se juzga al proceso como fuera de control cuando la media 
muestral X es menor o igual a 1 9.8 o mayor o igual a 20.2 onzas. Se supone que la canti- 
dad que se vacia en cada recipiente se encuentra aproximada, en forma adecuada, por 
una distribución normal con una desviación estándar de 0.5 onzas. 

a} Enuncíense las hipótesis nula y alternativa que son propias para esta situación. 

b) Obtener la probabilidad del error de tipo I. 

c) Obtener y granear la función de potencia para los siguientes valores medios de llena- 
do: 19.5, 19.6. 19.7, 19.8, 19.9, 20.0, 20.1 , 20.2, 20.3, 20.4, y 20.5. _ 

d) Como una prueba alternativa, considérese el rechazo de H Q cuando X « 1 9.75 o 
cuando X & 20.25. Si el tamaño máximo del error de tipo I es de 0.05, ¿cuál de las 
dos pruebas es la mejor? 

9.5. Con referencia al ejercicio 9.4, supóngase que el tamaño de la muestra se aumenta a 36 
recipientes. Dados los mismos tamaños del error de tipo I para las pruebas propuestas, 
obtener los nuevos valores críticos y comparar las funciones potencia de las dos 
pruebas. 

9.6. Los siguientes datos son los tiempos de sistema observados (tiempo de espera más tiem- 
po de servicio) para 10 clientes en una tienda: 8.7, 2.4, 18.2,10.5,9.7,4.8, 11.2,29.3, 
10.8, 15.6. Supóngase que el tiempo del sistema es una variable aleatoria con una distri- 
bución gama, con parámetro de forma igual a 2 y parámetro de escala desconocido. 
(Sugerencia: véase la expresión (5.51) y el teorema 7.1.) 



a) Pruébese la hipótesis nula 



contra la alternativa 



//„: = 5 



H,:0>5, 



con un tamaño máximo del error de tipo I igual a 0.05. 
b) Si el valor real de 6 fuese 7, ¿cuál sería la probabilidad del error de tipo II? 

9.7. Sea X,, X 2 , .... X„ una muestra aleatoria de tamaño n de una distribución normal con 
media fx desconocida y varianza a- 2 conocida. Obtener la mejor región crítica de tama- 
ño a para probar 

Un ■ M = Mo 
contra 

H,: t¿ = fi t . 
en donde ¿¿i < n». 

9.8. Sea X,. X 2 X„ una muestra aleatoria de tamaño n de una distribución de Poisson 

con parámetro X desconocido. Obtener la mejor región critica de tamaño a para probar 

W u :X = Xu 
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contra; 

//,:\ = X,, 

en donde, X, < Xo- 

9.9„ £1 número de accidentes en un crucero muy transitado sigue el modelo exacto de una 
distribución de Poisson con una media de 2.5 accidentes por semana. Un ingeniero de 
tráfico decide reducir la velocidad límite de las dos avenidas que se intersectan en el cru- 
cero. La decisión con respecto a si la reducción en el limite de velocidad disminuye el nú- 
mero de accidentes promedio por semana, se tomará con base en el número total de ac- 
cidentes que se observan durante un período de cuatro semanas a partir de la reducción 
en el límite de velocidad. 

a) Enunciar las hipótesis nula y alternativa apropiadas para esta situación. 

b) Para un tamaño máximo del error de tipo I igual a 0. 1 , obtener el valor critico de la 
estadística de prueba para el rechazo de la hipótesis nula. (Sugerencia: véanse el 
ejemplo 9.4 y el ejercicio 7.6.) 

c) Si el número de accidentes promedio disminuyó a 2, obtener la probabilidad del error 
de tipo II. 

9. 10. Sea X u X 2 , ■■■, X„ una muestra aleatoria de tamaño n de una distribución exponencial 
con parámetro de escala desconocido. Obtener la mejor región crítica de tamaño a 
para probar 

H Q : = B 

contra 

H x : = 0|, 
donde 0, > O . 

9. 1 1 . Se seleccionaron al azar cuatro unidades de videojuegos y se probaron hasta que ocurre 
la falla de éstos. £1 tiempo que observaron los que tuvieron las fallas son 148.2, 120.6 
165.5 y 145.7 horas. Supóngase que el lapso de tiempo que transcurre hasta que se pre- 
senta la falla es una variable aleatoria exponencial, empléese el ejemplo 7.4 para probar 
la hipótesis nula de que el tiempo medio para que una falla ocurra es de 140 contra la al- 
ternativa de que éste es mayor de 140 horas con una probabilidad del error de tipo I 
igual a 0.01. (Sugerencia: Empléese una técnica iterativa en conjunción con la expresión 
(5.56).) 

9.12. Un contratista ordena un gran número de vigas de acero con longitud promedio de 5 
metros. Se sabe que la longitud de una viga se encuentra normalmente distribuida con 
una desviación estándar de 0.02 metros. Después de recibir el embarque, el contratista 
selecciona 16 vigas al azar y mide sus longitudes. Si la media muestral tiene un valor más 
pequeño que el esperado, se tomará la decisión de enviar el embarque al fabricante. 

a) Si la probabilidad de rechazar un embarque bueno es de 0.04, ¿cuál debe ser el valor 
de la media muestral para que el embarque sea regresado al fabricante? 

b) Si la longitud promedio real es de 4.98 metros, ¿cuál es la potencia de la prueba en el 
inciso al 

9.13. En el ejercicio 9.12, ¿cuál es el tamaño necesario de la muestra para que la probabilidad 
de detectar una disminución de 0.015 metros en la longitud, media sea de 0.99? 
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9.14. El propietario de una automóvil compacto sospecha que la distancia promedio por 
galón que ofrece su carro es menor que la especificada por la EPA, la cual es de 30 millas 
por galón. El propietario observa la distancia recorrida por galón en nueve ocasiones y 

- obtiene los siguientes datos: 28.3, 31.2, 29.4, 27.2, 30.8, 28.7, 29.2, 26.5, 28.1. Des- 
pués de una investigación el propietario concluye que la distancia por galón es una 
variable aleatoria que se distribuye normal con una desviación estándar conocida de 1 .4 
millas por galón. Con base en esta información, ¿se encuentra apoyada la sospecha del 
propietario con a =0.01? ¿Cuál es el valor p en este caso? 

9.15. En el ejercicio 9. 14, ¿cuántas veces debe observarse la distancia recorrida por galón para 
que con una probabilidad de 0.9 sea detectado un valor tan bajo como 28 mpg? 

9.16. En cierto condado de Iowa, la cosecha promedio de maíz por acre fue de 100 toneladas 
por acre. Para un año dado en el que el clima fue particularmente bueno, se selecciona- 
ron 12 parcelas en forma aleatoria y éstas arrojaron una cosecha promedio de 106 tone- 
ladas por acre, para la misma variedad de maíz. Si la producción por acre se modela en 
forma adecuada por una distribución normal con una desviación estándar de 8 tonela- 
das por acre, ¿existe alguna razón para creer que este año la producción será mejor que 
la producción promedio normal? Empléese a = 0.01 . Para este caso, ¿cuál es el valor 

9.17. Para el ejercicio 9.16, obtener el correspondiente intervalo inferior de confianza del 
99% para el estimador del valor real promedio de la producción por acre, y deducir el 
intervalo de posibles valores para m bajo la hipótesis nula para la que H no puede re- 
chazarse con el mismo valor de a. 

9.18. En una planta de armado se diseña una operación específica la cual toma un tiempo 
promedio de 5 minutos. El gerente de la planta sospecha que para un operador en parti- 
cular el tiempo promedio es diferente. El gerente toma una muestra de 1 1 tiempos de 
operación para este empleado y obtiene los siguientes resultados (en minutos): 4.8, 5.6, 
5.3, 5.2, 4.9, 4.7, 5.7, 4.9, 5.7, 4.9, 4.6. Si se supone que el tiempo de operación se 
encuentra modelado en forma adecuada por una distribución normal: 

a) ¿Se encuentra la sospecha del gerente apoyada por la evidencia con a = 0.02? ¿cuál 
es el valor de pl 

b) Obtener el correspondiente intervalo de confianza estimado del 99% para el tiempo 
promedio real, y deducir el intervalo de posibles valores de fi bajo //„ para los que 
no puede rechazarse la hipótesis nula. 

9. 19. A veces los producios radioactivos de desecho industrial van a dar a las fuentes de agua 
que se utilizan para el consumo de la población. Por razones como ésta, las agencias es- 
tatales de salud vigilan en forma periódica las fuentes naturales de agua mediante la 
toma y el análisis de muestras de agua. En forma legal se ordena que la cantidad prome- 
dio de radiación en el agua para beber no debe exceder el valor de 4 picocuries por litro 
de agua. Se toma una muestra de 16 especímenes de una fuente natural de abasto de una 
zona densamente poblada, la cual proporciona valores para la media y la desviación es- 
tándar muestral de 4.2 y 1.2 picocuries por litro, respectivamente. Supóngase que la 
cantidad de radiación por litro de agua se encuentra modelada, en forma aproximada, 
por una distribución normal. 

a) ¿Debe usarse un valor, en particular, pequeño para la probabilidad del error de tipo 
I en esta situación? ¿Por qué? 
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b) Selecciónese un valor de alfa y pruébense las hipótesis adecuadas. ¿Cuál es el valor 
dep? 

c) ¿Debería preocupar la suposición de normalidad? Coméntese. 

9.20. En el ejercicio 9.14, supóngase que la desviación estándar del rendimiento en distancia 
por galón no se conoce. Pruébese la misma hipótesis del ejercicio 9.14 y compárense los 
resultados. ^ 

9.21 . En el ejercicio 9. 1 1 , supóngase que se asume un tiempo de falla el cual se encuentra nor- 
malmente distribuido. Pruébese la misma hipótesis del ejercicio 9.11 y compárense los 
resultados. 

9.22. Considérese la prueba de H : p = p contra H x :p = p\ para el parámetro binomial/?, 
en donde p¡ > p - Mediante el empleo del lema de Neyman-Pearson, demuéstrese que 
la mejor región crítica de tamaño a se basa en el número de éxitos observados en los n 
ensayos independientes. 

9.23. Un fabricante de lavadoras afirma que sólo el 5% de todas las unidades que vende 
sufren una falla iurante el primer año de operación normal. Una organización de con- 
sumidores ha pedido a 20 familias de igual número de miembros que han adquirido 
estas lavadoras, que reporten cualquier mal funcionamiento durante el primer año. Al 
final de éste, sólo tres familias reportaron mal funcionamiento. 

a) Si la organización de consumidores cree que la proporción de lavadoras que sufrirán 
alguna falla es más alta que el valor afirmado por el fabricante, empléese el ejercicio 
9.22 para determinar si puede rechazarse H : p = 0.05 con un tamaño máximo del 
error de tipo I de 0.1. 

b) Mediante el empleo de un método aproximado basado en el material de la sección 
8.4.6, pruébese la hipótesis nula y compárense las probabilidades de las estadísticas 
de prueba, asumiendo valores tan extremos o más de los determinados, dado que H 
es cierta. 

9.24. Supóngase que en una muestra aleatoria de 20 bebés concebidos mediante un proceso de 
fertilización in vitro, 15 son mujeres. 

a) Mediante el uso del ejercicio 9.22, determínese qué tan probable es el tener 15 o más 
mujeres, si la verdadera proporción de éstas es de 0.5. 

b) Compárese la probabilidad de la parte a con la que se obtiene mediante el empleo de 
la aproximación normal. 

9.25. Una organización de salud se interesa en actualizar su información con respecto a la 
proporción de hombres que fuman. Con base en estudios previos, se cree que la propor- 
ción es del 40%. La organización lleva a cabo una encuesta en la que se seleccionan en for- 
ma aleatoria 1 200 hombres a los cuales se les preguntan sus hábitos de fumador. De los 
1 200, 420 son fumadores. Emplee un método aproximado para determinar si esta evi- 
dencia apoya la noción de que la proporción de hombres que fuman es diferente del 
40% para a = 0.01. 

9.26. El responsable de la campaña política del candidato A piensa en el ambiente de las últi- 
mas semanas previas a las elecciones. Él piensa que su candidato se encuentra en igual 
posición que su oponente, el candidato B, pero han ocurrido algunos reveses en forma 
reciente. El responsable lleva a cabo una encuesta en 1 500 ciudadanos.Si de los 1 500 
720 indicaníuna preferencia por el candidato A, ¿existe alguna razón para creer que el can- 
didato A se encuentra en desventaja con relación al candidato B? Empléese a - 0.05. 
a = 0.05. 
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9.27. un fabricante desea comparar la tensión promedio de su hilo con la de su más cercano 
competidor. Las tensiones de 100 hilos para cada marca se observaron bajo condiciones 
controladas. Las medias y desviaciones estándar de cada marca fueron las siguientes: 

Jr, = 1 10.8 x, = 108.2, 
.v, = 10.2 s 2 = 12.4. 

Si se supone que el muestreo se llevó a cabo sobre dos poblaciones normales e indepen- 
dientes, ¿existe alguna razón para creer que hay una diferencia entre las tensiones 
promedio de ruptura de los dos hilos? Úsese a = 0.02. ¿Cuál es el valor de/?? (Suge- 
rencia: la estadística dada por (8.41) en la que los estimados vf y s] reemplazan a las co- 
rrespondientes varianzas poblacionales es aproximadamente N(0, 1) para valores gran- 
des de «i y n 2 ). 

9.28. En el ejercicio 9.27, obtener las curvas de potencia y característica de operación. 

9.29. Obtener una expresión equivalente a (9.14) para probar H : /i* - ¿i> = S contra 
H,: f-x ~ V-r = 6, < S - 

9.30. Se cree que el promedio verbal para el número de respuestas correctas para la prueba 
SAT para las mujeres es mayor que el de los hombres por más de diez puntos. Las 
muestras aleatorias para ambos sexos arrojaron los siguientes resultados: 

Hombres Mujeres 



n, = 125 n 2 = 100 

x, = 480 x 2 = 460 

.v, = 60 s, = 52 



a) Si se muestrearon dos poblaciones independientes normales, ¿se encuentra la creen- 
cia apoyada por la evidencia muestral con a = 0.05? ¿Cuál es el valor de pl 

b) Supóngase que la verdadera diferencia es de 15 puntos. ¿Cuál es la potencia de la 
prueba anterior? 

9.31. Mediante el empleo de los datos del ejercicio 8.32, determine si existen diferencias 
estadísticamente discernibles para la tensión de ruptura de los metales producidos por 
los dos procesos con a = 0.05. ¿Cuál es el valor depl 

9.32. A finales de la década de los setenta se descubrió que la sustancia carcionogénica nitro- 
sodimetilamina (NDMA) se formaba durante el secado de la malta verde, la cual se 
empleaba para fabricar cerveza. A principios de los ochenta se desarrolló un nuevo pro- 
ceso para el secado de la malta, el cual minimizaba la formación de NDMA. Se tomaron 
muestras aleatorias de una cerveza doméstica que se fabricó empleando ambos procesos 
de secado, y se tomaron los niveles de NDMA en partes por billón. Se obtuvieron los 
siguientes resultados: 

Proceso anterior 



Proceso propuesto 2 I 2 2 I 3 2 I I 3 

si se supone que se muestrearon dos distribuciones normales independientes con varian- 
zas iguales, ¿existe alguna razón para creer, a un nivel de a = 0.05 que ha disminuido 
la cantidad promedio de NDMA en más de dos partes, por billón con el empleo del 
nuevo proceso? 
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9.33. Se espera que dos operadores produzcan, en promedio, el mismo número de unidades 
terminadas en el mismo tiempo. Los siguientes datos son los números de unidades ter- 
minadas para ambos trabajadores en una semana de trabajo: 



Operador 1 


Operador 2 


12 


14 


II 


18 


18 


18 


16 


17 


13 


16 



Si se supone que el número de unidades terminadas diariamente por los dos trabajado- 
res son variables aleatorias independientes distribuidas normales con varianzas iguales, 
¿se puede discernir alguna diferencia entre las medias a un nivel «t = 0. 1? 

9.34. En el ejercicio 9.33, dado que los datos son observaciones diarias sobre un periodo de 
una semana, ¿debe usted considerar un enfoque alternativo a este problema? Discuta las 
ventajas de este enfoque y demuestre que se obtienen resultados diferentes a los del ejer- 
cicio 9.33. ¿Por qué se obtienen resultados diferentes? 

9.35. Un investigador médico se interesa en comparar la efectividad de dos dietas muy popu- 
lares, A y B. En particular, el investigador desea determinar si una dieta es más efectiva 
para reducir el peso de las personas obesas en un lapso dado de tiempo. Discuta de ma- 
nera completa el cómo debe el investigador llevar a cabo su experimento. Asegúrese de 
indicar las suposiciones necesarias. 

9.36. Un educador ha desarrollado una nueva prueba de aptitud mucho más breve que la que 
se encuentra en uso. El educador desea comparar las dos pruebas. Discuta el enfoque 
que empleará el educador para hacer posible tal comparación. 

9.37. Un fabricante desea comparar el proceso de armado común para uno de sus productos 
con un método propuesto que supuestamente reduce el tiempo de armado. Se selec- 
cionaron ocho trabajadores de la planta de armado y se les pidió que armaran las unida- 
des con ambos procesos. Los siguientes son los tiempos observados en minutos. 



Trabají 


idor Proceso actual 


Proceso propuesto 


1 


38 


30 


2 


32 


32 


3 


41 


34 


4 


35 


37 


5 


42 


35 


6 


32 


26 


7 


45 


38 


8 


37 


32 



a) En a = 0.05 ¿existe alguna razón para creer que el tiempo de armado para el proce- 
so actual es mayor que el del método propuesto por más de dos minutos? 

b) ¿Qué suposiciones son necesarias para probar la hipótesis del inciso a, y cuál es el 
i valor de pl 

c) Obténgase un intervalo de confianza del 95% para la diferencia entre las medias de 
los tiempos de armado. 
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9.38. Se llevó a cabo un estudio para determinar el grado en el cual el alcohol entorpece la ha- 
bilidad de pensamiento para llevar a cabo determinada tarea. Se seleccionaron al azar 
diez personas de distintas características y se les pidió que participaran en el experimen- 
to. Después de proporcionarles la información pertinente, cada persona llevó a cabo la 
tarea sin nada de alcohol en su organismo. Entonces, la tarea volvió a llevarse a cabo, 
después de que cada persona habia consumido una cantidad suficiente de alcohol para 
tener un contenido en su organismo de 0.17o. 

a) Discutir los aspectos importantes de control que el experimentador debe considerar 
al llevar a cabo el experimento. 

b) Supóngase que los tiempos "antes" y "después" (en minutos) de los diez participan- 
tes son los siguientes: 

Participante Antes Después 



1 


28 


39 


2 


22 


45 


3 


55 


67 


4 


45 


61 


5 


32 


46 


6 


35 . 


58 


7 


40 


51 


8 


25 • 


34 


9 


37 


48 


10 


20 


30 



¿Puede concluirse a un nivel de a = 0.05 que el tiempo promedio "antes" es menor 
que el tiempo promedio "después" por más de diez minutos? 

9.39. En el ejercicio 9.19, ¿existe alguna razón para creer que la varianza en la cantidad de ra- 
diación en la fuente de agua es mayor de 1.25 picocuries cuadrados? Emplee a = 0.05. 

9.40. Desarróllense expresiones generales para calcular la probabilidad del error de tipo II 
cuando se prueban las hipótesis H a : cr 2 = 0-5 contra cualquiera de las dos siguientes 
alternativas H¡: a~ > cr 2 , y //,: cr 2 < cr 2 ,. 

9.41 . Empléense los resultados del ejercicio 9.40 para obtener la potencia de la prueba ¿le la 
hipótesis en el ejercicio 9.39 si cr 2 = 1 .4. 

9.42. El gerente de una planta sospecha que el número de piezas que produce un trabajador 
en particular por día, fluctúa más allá del valor normal esperado. El gerente decide ob- 
servar el número de piezas que produce este trabajador durante diez días, seleccionados 
éstos al azar. Los resultados son 15, 12.8, 13, 12, 15, 16, 9, 8, y 14. Si se sabe que la 
desviación estándar para todos los trabajadores es de dos unidades y si el número de és- 
tas que se produce diariamente, se encuentra modelado en forma adecuada por una dis- 
tribución normal, a un nivel de a = 0.05, ¿tiene apoyo la sospecha del gerente? ¿Cuál es 
el valor de pl 

9.43. En un proceso de llenado, la tolerancia para el peso de los recipientes es de ocho 
gramos. Para reunir este requisito, la desviación estándar en el peso debe ser de dos gra- 
mos. Los pesos de 25 recipientes seleccionados al azar dieron como resultado una des- 
viación estándar de 2.8 gramos. 

a) Si los pesos se encuentran normalmente distribuidos, determinar si la varianza de 
éstos es diferente del valor necesario. Empléese a = 0,02. 
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b) ¿Para qué valores de la varianza muestral no puede rechazarse la hipótesis nula del 
inciso di ¿Se encuentran estos valores equidistantes del valor necesario de la varian- 
za? ¿Cómo deberían ser? Coméntese. 

9.44. Considérense los datos del ejercicio 9.32. Para un nivel de a = 0.05 ¿existe alguna 
razón para pensar que las varianzas no son iguales? 

9.45. Un inversionista desea comparar los riesgos asociados con dos diferentes mercados, A y 
B. El riesgo de un mercado dado se mide por la variación en los cambios diarios de pre- 
cios. El inversionista piensa que el riesgo asociado con el mercado B es mayor que el del 
mercado A. Se obtienen muestras aleatorias de 21 cambios de precio diarios para el mer- 
cado A y de 16 para el mercado B. Se obtienen los siguientes resultados: 

Mercado A Mercado B 



jt a = 0.3 x B = 0.4 

j A = 0.25 í„ = 0.45 



a) Si se supone que las muestras provienen de dos poblaciones normales e independien- 
tes a un nivel de a = 0.05 ¿encuentra apoyo la creencia del inversionista? 

b) Si la varianza muestral de A es la dada, ¿cuál es el máximo valor de la varianza 
muestral de B con base en n = 1 6 que no llevará al rechazo de la hipótesis nula del in- 
ciso al 

9.46. Para el ejercicio 9.33, ¿puede apoyarse la opinión de que la variación en el número de artícu- 
los terminados para el operador 2 es menor que para el operador 1 a un nivel a = 0.05? 

9.47. En un estudio reciente que abarcó 25 años, se investigó la posible protección que pro- 
porciona la ingestión de una forma de vitamina A llamada caroteno contra el desarrollo 
del cáncer pulmonar. Se encontró que de 488 hombres que habían ingerido una baja 
cantidad de esta sustancia durante este tiempo, 14 desarrollaron cáncer pulmonar, pero 
en un grupa del mismo tamaño en el que el consumo de caroteno era mayor, sólo dos 
personas desarrollaron cáncer. Bajo las suposiciones apropiadas, ¿puede concluirse que 
la ingestión de caroteno reduce el riesgo de desarrollar cáncer pulmonar en los hombres? 
Empléese a - 0.01. ¿Cuál es el valor de p? Desde un punto de vista estadístico, ¿qué 
consejo se podría dar al investigador médico que se interesa en un proyecto como éste? 

9.48. Para el ejercicio 9.47, determinar un intervalo de confianza estimado del 99Vo para la 
verdadera diferencia entre las dos proporciones. 

9.49. Un economista al servicio de una agencia estatal desea determinar si la frecuencia de de- 
sempleo en dos grandes áreas urbanas del estado son diferentes. Con base en muestras 
aleatorias de cada ciudad, cada una de 500 personas, el economista encuentra 35 perso- 
nas desempleadas en un área y 25 en la otra. Bajo las suposiciones adecuadas y con un 
nivel a = 0.05 ¿existe alguna razón para creer que las frecuencias de desempleo en las 
dos áreas son diferentes? ¿Cuál es el valor de /?? 

9.50. Un usuario de grandes cantidades de componentes aléctricos adquiere éstos principal- 
mente de dos proveedores, A y B. Debido a una mejor estructura en precios, el usuario 
hará negocio únicamente con el proveedor B si la proporción de artículos defectuosos 
para A y para B es la misma. De dos grandes lotes, el usuario selecciona al azar 125 uni- 
dades de A y 100 unidades de B; inspecciona las unidades y encuentra siete y siete 
unidades defectuosas, respectivamente. Bajo las suposiciones adecuadas y con base en esta 
información, ¿existe alguna razón para no comprar en forma única las componentes del 
proveedor B? Empléese a = 0.02. 



CAPITULO DIEZ 



Pruebas de bondad de ajuste 
y análisis de tablas 
de contingencia 



10.1 Introducción 

Recuérdese que una hipótesis estadística es una afirmación con respecto a una carac- 
terística que se desconoce de una población de interés. En el capítulo 9 fue, en forma 
exclusiva, el valor de algún parámetro 6. En este capítulo se examinarán las pruebas 
de hipótesis estadísticas en las que la característica que se desconoce es alguna pro- 
piedad de la forma funcional de la distribución que se muestrea. Además, se discuti- 
rán las pruebas de indépendiencia entre dos variables aleatorias en las cuales la evi- 
dencia muestral se obtiene mediante la clasificación de cada variable aleatoria en un 
cierto número de categorías. 

En forma tradicional, este tipo de prueba recibe el nombre de bondad del ajuste 
ya que ésta compara los resultados de una muestra aleatoria con aquéllos que se es- 
pera observar si la hipótesis nula es correcta. La comparación se hace mediante la 
clasificación de los datos que se observan en cierto número de categorías y entonces 
comparando las frecuencias observadas con las esperadas para cada categoría. Para 
un tamaño específico del error de tipo I, la hipótesis nula será rechazada si existe una 
diferencia suficiente entre las frecuencias observadas y las esperadas. 

Vale la pena notar que para situaciones de este tipo la hipótesis alternativa es 
compuesta y, en muchas ocasiones, no se encuentra identificada en forma explícita. 
El resultado es que la función de potencia es muy difícil de obtener en forma analíti- 
ca. En consecuencia, una prueba de bondad de ajuste no debe usarse por sí misma 
para aceptar la afirmación de la hipótesis nula. La decisión es no rechazar H (más 
que aceptarla) si la diferencia que existe entre las frecuencias observadas y esperadas 
es, en forma relativa, pequeña. 
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10.2 La prueba de bondad de ajuste chi-cuadrada < .. 

Una prueba de bondad de ajuste se emplea para decidir cuándo un conjunto de 
datos se apega a una distribución de probabilidad dada. Considérese una muestra 
aleatoria de tamaño n de la distribución de una variable aleatoria X dividida en k 
clases exhaustivas y mutuamente excluyentes, y sea N¡, i = 1, 2, ..., k, el número 
de observaciones en la /-ésima clase. Considérese la verificación de la hipótesis nula 

H : F(x) = F (x), (10.1) 

en donde el modelo de probabilidad propuesto F (x) se encuentra especificado, de 
manera completa, con respecto a todos los parámetros. De esta forma la hipótesis 
nula es sencilla. Dado que se especifica F (x) de manera completa, se puede obtener 
la probabilidad p, de obtener una observación en la /-ésima clase bajo H , en donde 
necesariamente 2* = x p¡ = 1 . 

Sea n, la realización de N¡ para / = 1, 2 ... k de manera tal q-s 2*. i n¡ = n. La 
probabilidad de tener, de manera exacta, n, observaciones en la /-ésima clase es p? 
para / = 1,2...*. Dado que existen k categorías mutuamente excluyentes con pro- 
babilidades P\, p 2 , .., Pk> entonces bajo la hipótesis nula la probabilidad de la 
muestra agrupada es igual a la función de probabilidad de una distribución multino- 
mial determinada (6.3). 

Para deducir una prueba estadística adecuada para H , considérese el caso en el 
que k = 2. Este es la distribución binomial con una función de probabilidad dada 
por (4.1) y en la que x = «,, p = p¡, n ~ x = « : ,yl - p = p 2 ■ Considérese 
la variable aleatoria estandarizada 

= N, - np x 



V«Pid - P\) 

Del capítulo 5, recuérdese que para un valor de n suficientemente grande, la distri- 
bución de Y es aproximadamente igual a la normal estándar. Además, del ejemplo 
5. 14 se sabe que el cuadrado de una variable aleatoria normal estándar tiene una dis- 
tribución chi-cuadrada con un grado de libertad. Entonces, la estadística 

(N, - n Pi ) 2 _ (N, - n Pl ) 2 (N, - np,) 2 



/!/?,(! -/?,) np x np 2 



(N, - n Pl ) 2 [n - N 2 - n{\ -p 2 )f 
np | np 2 

(N, - np,) 2 (N 2 - np 2 ) 2 



E 



np , np 2 

(Nj - np,) 1 
np, 



tiene aproximadamente una distribución chi-cuadrada con un grado de libertad con- 
forme n va tomando valores cada vez más grandes. 
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Si se sigue este tipo de razonamiento, puede demostrarse que para k s* 2 catego- 
rías distintas, la estadística 

Í (Ni - npf . (10.2) 

,= ■ «Pi 

tiene una distribución, en forma aproximada, chi-cuadrada con k - 1 grados de li- 
bertad, si n tiene un valor suficientemente grande. Nótese que N, es la frecuencia 
observada en la z'-ésima clase, y np¡ es la frecuencia correspondiente que se esperaba 
bajo la hipótesis nula. De acuerdo con lo anterior, la estadística es la suma sobre 
todas las k clases de los cocientes de los cuadrados de las diferencias entre las fre- 
cuencias observada y esperada, y la frecuencia esperada. La estadística dada por 
(10.2) recibe el nombre de prueba de bondad de ajuste chi-cuadrada de Pearson. Si 
existe una concordancia perfecta entre las frecuencias que se observaban y las que se 
esperaban, la estadística tendrá un valor igual a cero: po r otro lado, si existe gran dis- 
crepancia entre estas frecuencias, la estadística tomará un valor muy grande. Por 
ello se desprende que para un tamaño dado del error de tipo I, la región crítica es el 
extremo superior de una distribución chi-cuadrada con k - 1 grados de libertad. 

Ejemplo 10.1 El gerente de una planta industrial pretende determinar si el número 
de empleados que asisten al consultorio médico de la planta se encuentra distribui- 
do, en forma equitativa, durante los cinco días de trabajo de la semana. Con base en 
una muestra aleatoria de cuatro semanas completas de trabajo, se observó el siguien- 
te número de consultas: 

Lunes Martes Miércoles Jueves Viernes 

49 35 32 39 45 

Con a = 0.05, ¿existe alguna razón para creer que el número de empleados que 
asisten al consultorio médico, no se encuentra distribuido en forma equitativa du- 
rante los días de trabajo de la semana? 

Una distribución uniforme implicaría que las proporciones para cada día de la 
semana sean iguales. Por lo tanto, deberá probarse la hipótesis nula 

H : Pi = 0.2, i = 1,2, ...,5. 

Dado que el tamaño de la muestra es n = 200, la frecuencia esperada para cada día 
es np¡ = 40. Entonces, el valor de la estadística de prueba es 

, (49 - 40) : (35 - 40) : (32 - 40) 2 (39 - 40) 2 (45 - 40) 2 

X" = tz + + + + = 4.9. 

40 40 40 40 40 

Para k = 5 clases, se observa que el valor crítico es Xo .95. 4 = 9.49. Ya que x~ = 4.9 
< X0.95. 4 = 9.49, no puede rechazarse la hipótesis nula. Con base en esta eviden- 
cia, no existe ninguna razón para creer que el número de empleados que acuden al 
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consultorio no se encuentre distribuido en forma uniforme a lo largo de la semana 
de trabajo. 

Una ventaja de la prueba de bondad de ajuste chi-cuadrada es que para valores 
grandes de n, la distribución limite chi-cuadrada de la estadística, es independiente a 
la forma de la distribución propuesta F^x) bajo H . Como resultado se tiene que la 
prueba de bondad de ajuste chi-cuadrada también se emplea en situaciones en las 
que F 0r) es continua. Sin embargo, debe hacerse énfasis en que la naturaleza de la 
prueba de bondad de ajuste chi-cuadrada es discreta en el sentido en el que ésta com- 
para las frecuencias que se observan y se esperan para un número finito de catego- 
rías. De acuerdo con lo anterior, si F (x) es continua, la prueba no compara las fre- 
cuencias que se observan alisadas con la función de densidad propuesta tal como lo 
implica la hipótesis nula. Más bien, la comparación se lleva a cabo aproximando la 
distribución continua bajo H con un número finito de intervalo de clase. A pesar 
de esta limitación, la prueba de bondad de ajuste chi-cuadrada es un procedimiento 
razonablemente adecuado para probar suposiciones de normalidad siempre y cuan- 
do el tamaño de la muestra sea, en forma moderada, grande. Con respecto a la pre- 
gunta de qué tan grande debe ser el tamaño de la muestra, se ha encontrado que con 
n igual a cinco veces el número de clases, los resultados son aceptables. Una regla 
conservadora a seguir es el seleccionar un muestra de manera tal que toda frecuencia 
esperada no sea menor que cinco. Lo anterior puede lograrse combinando clases ve- 
cinas pero, para cada par de clases que se combina, el número de grados de libertad 
debe reducirse en uno. 

A menos que pueda especificarse una hipótesis alternativa que consista en un mo- 
delo alternativo F/xJ particular, la potencia de la prueba de bondad de ajuste chi- 
cuadrada es muy difícil de determinar en forma analítica. Sin embargo, puede de- 
mostrarse que la potencia tiende a 1 conforme n tiende a =». Este resultado implica 
que para muestras de gran tamaño es casi seguro el rechazar la hipótesis nula debido 
a que es muy difícil especificar una //„ lo suficientemente cercana a la verdadera dis- 
tribución. De esta forma, la aplicabilidad de la prueba de bondad de ajuste chi- 
cuadrada es cuestionable cuando se tienen muestras de tamaño muy grande. 

Ejemplo 10.2 En la tabla 5.2 se proporcionan los datos que se agrupan para el nú- 
mero de respuestas correctas para la prueba SAT de matemáticas, de los alumnos del 
tercer año de preparatoria. Recuérdese que en el ejemplo 5.5 se compararon las fre- 
cuencias que se observaron con las que se esperaron, en donde estas últimas se obtu- 
vieron con base en una distribución normal con media 491 y desviación estándar 
igual a 120. Con base en la prueba de bondad de ajuste chi-cuadrada, ¿existe alguna 
razón para creer que el número de respuestas correctas para la prueba de matemáti- 
cas SAT no se encuentran distribuidas normalmente con media 491 y desviación es- 
tándar igual a 120 a un nivel de a = 0.01? 

Considérese la prueba de la siguiente hipótesis nula 

H :F(x) = F (x), 

en donde F (x) es el modelo de probabilidad normal con media 491 y desviación es- 
tándar 120. Bajo la hipótesis nula, las frecuencias esperadas para las 12 clases se 
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encuentran en la última columna de la tabla 5.2. Éstas se determinaron primero con- 
virtiendo cada intervalo de cada clase al correspondiente intervalo normal estándar, 
empleando para esto m = 491 ver = 120. Después se determinó la probabilidad de 
cada intervalo bajo H . Finalmente, para cada clase.el valor de probabilidad se mul- 
tiplicó por el tamaño de la muestra n = 478 193 para obtener la frecuencia esperada. 
Nótese que las probabilidades que aparecen en la penúltima columna de la tabla 5.2 
no suman uno. Pero bajo la hipótesis nula las clases deben ser exhaustivas, de mane- 
ra tal que 2* = , p¡ = 1 . Lo anterior puede lograrse mediante el ajuste de las clases 
primera y última de manera tal que la primera no tenga límite inferior y la última no 
tenga límite superior. Dado que bajo H , X ~ N(49l , 120), 

P{X « 250) = P{Z =s -2.01) = 0.0222, 

y la frecuencia modificada para la primera clase es (478 193) (0.0222) = 10 615.88. 
De manera similar para la última clase 

P(X 3* 750) = P(Z s* 2.16) = 0.0154, 

lo cual da como resultado una frecuencia esperada de 7 364.17. 
Con base en las 12 clases, el valor de la estadística chi-cuadrada es 

', _ (3 423 - 10 615.88) 2 (18 434 - 16 I15.10) 2 (6 414 - 7 364.I7) 2 

} ~ 10615.88 + 16 115.10 7 364.17 

= 13 067.02, 

el cual se encuentra, en forma clara, más allá del valor crítico xV». h = 24.75. De 
acuerdo con lo anterior, la hipótesis nula de que el número de respuestas correctas 
para la prueba SAT se encuentra normalmente distribuido con media 491 y desvia- 
ción estándar de 120, debe rechazarse. Este ejemplo ilustra el comentario formulado 
con anterioridad con respecto a muestras de gran tamaño, en donde la hipótesis nula 
casi seguramente resulta rechazada. 

Recuérdese que la hipótesis nula dada por (10. 1) es simple ya que el modelo de pro- 
babilidad propuesto F (x) se especificó de manera completa con respecto a todos 
sus parámetros. Sin embargo, para muchas aplicaciones que toman en cuenta la 
bondad del ajuste, sólo puede especificarse la forma de F u (x). Por ejemplo, supón- 
gase que se desea probar la hipótesis nula de que un conjunto de observaciones de 
una medida de interés X se ajustan a una distribución normal, pero no puede especi- 
ficarse el valor de la media o el de la variaza. Lo anterior da como resultado que la 
hipótesis nula 

//„: FXx) = F„(.v) 

es compuesta. En consecuencia, se tiene que las frecuencias esperadas np¡ para las / 
= 1, 2 ... k clases no pueden determinarse, ya que éstas son funciones de los pará- 
metros desconocidos de F (x). 

Supóngase que T es una estadística para un parámetro desconocido 8 de F u (x). 
En el contexto de la prueba de bondad de ajuste, tanto las frecuencias observables 
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N¡ como las frecuencias esperadas np,(T) son variables aleatorias, en donde p¡(T) 
indica que las probabilidades bajo la hipótesis nula son funciones de la estadística T 
de 6. Puede demostrarse que si para cualquier parámetro desconocido 6 la estadísti- 
ca T es el estimador de máxima verosimilitud de 0, y si las frecuencias esperadas se 
determinan como funciones de los estimadores de máxima verosimilitud, entonces 

í w - 7j; r "' 00.3, 

tiene aproximadamente una distribución chi-cuadrada con k - 1 - r grados de liber- 
tad, para valores de n grandes, en donde r es el número de parámetros que se está 
tratando de estimar. 

Al igual que en el caso previo en el que se tenía una //„, sencilla, la región crítica 
es el extremo superior de la distribución chi-cuadrada. Pero, a diferencia del caso 
anterior, el numere ie grados de libertad se reduce por una cantidad igual al número 
de parámetros que se están estimando. Como consecuencia, existe un corrimiento 
hacia la izquierda en el valor crítico para el mismo tamaño del error de tipo I, y la hi- 
pótesis nula puede rechazarse para un valor observado más pequeño de (10.3) que en 
el caso previo. Lo anterior es lógico ya que el ajuste deberá ser mejor debido a que 
los parámetros desconocidos se estiman con base en las observaciones de la muestra. 

Las características importantes para la aplicación de la prueba de bondad de 
ajuste chi-cuadrada para el caso compuesto son idénticas a las que tienen para la hi- 
pótesis nula simple. Surge un problema relativamente pequeño al decidir si los pará- 
metros desconocidos deberán estimarse con base en los datos que se agruparon en 
les que no. En forma teórica, ninguno de los dos enfoques puede ser el correcto de- 
bido a que los estimados de máxima verosimilitud deben obtenerse maximizando la 
función de verosimilitud con base en la distribución multinomial. En forma afortu- 
nada, resulta que la mayoría de las veces el error que se comete no es serio. De esta 
forma, se pueden utilizar los estimados de máxima verosimilitud obtenidos, ya sea 
de los datos agrupados o de los no agrupados, en forma segura. 

Ejemplo 10.3 Recuérdese el ejemplo 4.5 en el que se compararon el número de 
anotaciones de seis puntos por equipo y por juego en la NFL con el número que es- 
peraban de éstos, si el número de anotaciones de seis puntos tiene una distribución 
de Poisson. Con base en la información contenida en la tabla 4.3, ¿existe alguna 
razón para creer, a un nivel de 0.05, que el número de anotaciones no es variable 
aleatoria de Poisson? 

Dado que el valor del parámetro de Poisson X no se especifica, el estimado de 
máxima verosimilitud de A con base en la información que se proporcionó en la 
tabla 4.3 es X = 2.435 . Bajo la hipótesis nula de una distribución de Poisson, la pro- 
babilidad de tener cero anotaciones es 

P(0) = (2.435)°exp(-2.435)/0! = 0.0876. 
Para n = 448, el número esperado de cero anotaciones es (448)(0.0876) = 39.24. Si 
se sigue este procedimiento, pueden obtenerse las demás frecuencias esperadas. En 
la tabla 10.1, se presenta el cálculo de la estadística chi-cuadrada. 
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TABLA 10.1 Cálculo de la estadística chi-cuadrada para el ejemplo 10.3 



Número de 


Frecuencia 


Frecuencia 


[n¡-/ip,(A)] 2 


anotaciones 


observada 


esperada 


np¡(k) 





35 


39.24 


0.458 


1 


99 


95.56 


0.124 


2 


104 


116.34 


1.309 


3 


110 


94.44 


2.564 


4 


62 


57.48 


0.355 


5 


25 


28.00 


0.321 


6 


10 


11.38 


0.167 


7 


3 


5.56 


1.179 


Totales 


448 


448 


6.477 



Para k = 8 categorías y con un parámetro estimado, el número de grados de li- 
bertad es 6. Para a = 0.05 el valor crítico es Xo.95.6 = 12.60. Dado que x 2 = 6.477 
< X0.95. 6 = 12.60, no puede rechazarse la hipótesis nula de que el número de 
anotaciones de seis puntos por equipo en la NFL es una variable aleatoria de Pois- 
son. 
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Recuérdese que para aplicar la prueba de bondad de ajuste chi-cuadrada cuando 
el modelo propuesto bajo H es continuo, es necesario aproximar F (x) mediante el 
agrupamiento de los datos observados en un número finito de intervalos de clase. 
Este requisito de agrupar los datos implica tener una muestra de tamaño más o 
menos grande. De esta manera, la prueba de bondad de ajuste chi-cuadrada se en- 
cuentra limitada cuando F ü (x) es continua y la muestra aleatoria disponible tiene un 
tamaño pequeño. Una prueba de bondad de ajuste más apropiada que la chi-cuadra- 
da cuando F (x) es continua, es la basada en la estadística de Kolmogorov-Smirnov. 
La prueba de Kolmogorov-Smirnov no necesita que los datos se encuentren agrupa- 
dos y es aplicable a muestras de tamaño pequeño. Ésta se basa en una comparación 
entre las funciones de distribución acumulativa que se observan en la muestra orde- 
nada y la distribución propuesta bajo la hipótesis nula. Si esta comparación revela 
una diferencia suficientemente grande entre las funciones de distribución muestral y 
propuesta, entonces la hipótesis nula de que la distribución es F (jr), se rechaza. 
Considérese la hipótesis nula por (10.1), en donde F (x) se especifica en forma 

completa. Denótense por A',,,, X a , X ln) a las observaciones ordenadas de una 

muestra aleatoria de tamaño n y defínase la función de distribución acumulati- 
va muestral como 



SM = 



x < jr (() , 



k/n x U) ^x<x (k+u , (10.4) 

I x & x„ . 



i 
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En otras palabras, para cualquier valor ordenado x de la muestra aleatoria, S„(x) es la 
proporción del número de valores en la muestra que son iguales o menores a x. Ya 
que F (x) se encuentra completamente especificada, es posible evaluar a F (x) para 
algún valor deseado de x, y entonces comparar este último con el valor correspon- 
diente de S„(x). Si la hipótesis nula es verdadera, entonces es lógico esperar que la 
diferencia sea relativamente pequeña. La estadística de Kolmogorov-Smirnov se de- 
fine como 

D n = mkx[S n (x)- F (x)\. (10.5) 

X 

La estadística D n tiene una distribución que es independiente del modelo pro- 
puesto bajo la hipótesis nula. Por esta razón, se dice D n es una estadística indepen- 
diente de la distribución. Lo anterior da como resultado que la función de distribu- 
ción de D n pueda evaluarse sólo en función del tamaño de la muestra y después usarse 
para cualquier F (x). En la tabla J del apéndice, se proporcionan los valon*<: canti- 
les superiores de D n para varios tamaños de la muestra. El lector debe notar que los 
valores asintóticos de d n que se encuentran en la parte inferior de la tabla propor- 
cion?n una adecuada aproximación para valores de n mayores de 50. 

Para un tamaño a del error de tipo I, la región crítica es de la forma 

De acuerdo con lo anterior, la hipótesis H se rechaza si para algún valor x observa- 
do el valor de D n se encuentra dentro de la región crítica de tamaño a. 

Como se hizo notar anteriormente, la estadística de Kolmogorov-Smirnov es, en 
general, superior a la prueba de bondad de ajuste chi-cuadrada cuando los datos in- 
volucran una variable aleatoria continua, debido a que no es necesario agrupar los 
datos. Además, la prueba de Kolmogorov-Smirnov tiene la atractiva propiedad de 
ser aplicable a muestras de tamaño pequeño. Por otro lado, la estadística se encuen- 
tra limitada, ya que el modelo propuesto bajo// debe especificarse en forma com- 
pleta. La estadística de Kolmogorov-Smirnov no se aplica a todos aquellos casos 
para los que las observaciones no son inherentemente cuantitativas a consecuencia 
de las ambigüedades que pueden surgir cuando se ordenan las observaciones. 

Ejemplo 10.4 A continuación se proporcionan los valores ordenados de una 
muestra aleatoria del número de respuestas correctas para la SAT que se aplicó a 
todos los estudiantes que ingresaron a una universidad: 852, 875, 910, 933, 957, 
963, 981, 998, 1007. 1010, 1015, 1018, 1023, 1035, 1048, 1063. En años anterio- 
res, el número de respuestas correctas estaba representado, en forma adecuada, por 
una distribución normal con media 985 y desviación estándar 50. Con base en esta 
muestra, ¿existe alguna razón para creer que ha ocurrido un cambio en la distribu- 
ción de respuestas correctas para la prueba SAT en esta universidad? Empléese un 
nivel a = 0.05. 

Sea X la variable aleatoria que representa el número de respuestas correctas para 
'a prueba SAT. Considérese la prueba de la siguiente hipótesis nula 
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H : F(x) = F (x), 

donde F (x) es la función de distribución normal con media 985 y desviación están- 
dar 50. Dado que X es una variable aleatoria continua y el tamaño de la muestra de 
A" es pequeño, se usará la estadística de Kolmogorov-Smirnov para probar a H . La 
función de distribución muestral se obtiene mediante el empleo de (10.4) para los va- 
lores ordenados. Lo anterior involucra un incremento de 1/6 = 0.0625 al valor pre- 
vio de la distribución muestral. Los valores correspondientes del modelo normal 
propuesto se obtienen estandarizando primero a N(0, 1) y empleando la tabla D del 
apéndice. En la tabla 10.2 se encuentra la información más importante. 

Se observa que la máxima desviación es de 0.1207. De la tabla J del apéndice, el 
valor crítico de D lb para a = 0.05 es 0.328. Dado que 0.1207 < 0.328, no puede 
rechazarse la hipótesis nula. De acuerdo con ello no es posible detectar un cambio en 
la distribución para el número de respuestas correctas de la prueba SAT de la ya es- 
tablecida N(985, 50). 



10.4 La prueba chi-cuadrada para el análisis de tablas de 
contingencia con dos criterios de clasificación 

Muchas veces surge la necesidad de determinar si existe alguna relación entre dos 
rasgos diferentes en los que una población ha sido clasificada y en donde cada rasgo 
se encuentra subdividido en cierto número de categorías. Por ejemplo, ¿existe una 
relación entre el fumar cigarrillos y la predisposición a desarrollar cáncer pulmo- 
nar?, o también ¿existe una relación entre la filiación política y la opinión con res- 
pecto a incrementar el presupuesto armamentista? En ambos ejemplos, se ha clasifi- 
cado a la población en dos características y en donde se supone que cada una de 



TABLA 10.2 Cálculo de la estadística de Kolmogorov-Smirnov para el ejemplo 10.4 

Valores ordenados S„(x) F a (x) \S„(x) - F (x)\ 

852 0.0625 0.0039 0.0586 

875 0.1250 0.0139 0.1111 

910 0.1875 0.0668 0.1207 

933 0.2500 0.1492 0.1008 

957 0.3125 0.2877 0.0248 

963 0.3750 0.3300 0.0450 

981 0.4375 0.4681 0.0306 

998 0.5000 0.6026 0.1026 

1007 0.5625 0.6700 0.1075 

1010 0.6250 0.6915 0.0665 

1015 0.6875 0.7257 0.0382 

1018 0.7500 0.7454 0.0046 

1023 0.8125 0.7764 0.0361 

1035 0.8750 0.8413 0.0337 

1048 0.9375 0.8962 0.0413 

1063 1.0000 0.9406 0.0594 



10.4 La prueba chi-cuadrada para el análisis de tablas de contingencia 371 

éstas tiene por lo menos dos categorías exhaustivas y mutuamente excluyentes. En el 
primer ejemplo las dos características son, si se es fumador, y si desarrolla cáncer 
pulmonar. Las categorías para estas dos características podrían ser si se es fumador 
crónico, moderado o no fumador, para la primera, y el si se desarrolla o no cáncer 
pulmonar para la segunda. 

Cuando una muestra aleatoria que se obtiene de una población se clasifica de 
esta manera, el resultado recibe el nombre dé tabla de contingencia con dos criterios 
de clasificación. Esta tabla se forma por las frecuencias relativas que se observaron 
para las dos clasificaciones y sus correspondientes categorías. A pesar de que sólo se 
analizarán tablas de contingencia con dos clasificaciones, es posible analizar tablas 
que contengan más de dos clasificaciones. 

El análisis de una tabla de este tipo supone que las dos clasificaciones son inde- 
pendientes. Esto es, bajo la hipótesis nula de independencia se desea saber si existe 
una diferencia suficiente entre las frecuencias que se observan y las correspondientes 
frecuencias que se esperan, tal que la hipótesis nula se rechace. La prueba chi-cua- 
drada, discutida en la sección 10.2, proporciona los medios apropiados para anali- 
zar este tipo de tablas. 

Sea n una muestra aleatoria de una población que se clasifica de acuerdo con dos 
características A y B, cada una de las cuales contiene un número r y c de categorías, 
respectivamente. Además, sea N¡. el número de observaciones en la categoría (/, j), 
de las características A y B, respectivamente, para i = 1, 2 ... ryj = 1, 2 ... c. En- 
tonces una tabla de contingencia es un arreglo matricial de r x c, dado en la tabla 
10.3, en donde las entradas representan las realizaciones de las variables aleatorias 

N . 

Nótese que el total del /-ésimo renglón es la frecuencia de la /-ésima categoría de 
característica A, sumando sobre todas las categorías de la característica B. De mane- 
ra similar, el total de lay'-ésima columna es la frecuencia observada de la ./-ésima ca- 
tegoría de B sumada sobre todas las categorías de A. Sean 

n¡- = 2 "u i = 1. 2, ..., r, 

r 

n i = 2 n¡j J = '-2, ..., c, 



TABLA 10.3 Tabla de contingencia con dos clasificaciones 





Categorías 


Característica B 






1 


2 




c 


Totales 




1 


"ii 


"12 




"i, 


n, 


Característica 


2 


"21 


«" 




"2c 


"2 


A 
















r 


"rl 


n r2 




"r, 


«r 




Totales 


n., 


"•: 




"•< 


n 
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los símbolos para denotar las sumas de los renglones y de las columnas, respectiva- 
mente, en donde la notación "punto" indica el subscripto sobre el cual se lleva a 
cabo la sumatoria. 

Sea pa la probabilidad de que un objeto seleccionado al azar de una población 
de interés se encuentre en la categoría (i f j) de la tabla de contingencia. Sea p, la pro- 
babilidad (marginal) de que un objeto se encuentre en la categoría / de la característi- 
ca A, y sea p , la probabilidad de que un objeto se encuentre en la categoría/ de la 
característica B. Si las dos características son independientes, la probabilidad con- 
junta debe ser igual al producto de las probabilidades marginales. De esta forma 
puede establecerse la hipótesis nula de la siguiente manera: 

IU Py = PiP, i = 1.2 r; j = 1, 2, ..., c. (10.6) 

Si pueden especificarse las probabilidades marginales p¡. y p¡, entonces, bajo la 
hipótesis nula, la estadística 

¿ ¿ [N " ~ "MJ (10.7) 

tiene en forma aproximada una distribución chi-cuadrada con re - 1 grados de liber- 
tad para valores grandes de n. Sin embargo, la mayoría de las veces pueden no cono- 
cerse los valores de las probabilidades marginales y, de esta forma, se estiman con 
base en la muestra. Afortunadamente, la prueba de bondad de ajuste chi-cuadrada 
permanece como la estadística apropiada para probar (10.6), siempre que se empleen 
los estimados de máxima verosimilitud y se reste un grado de libertad del total para 
cada parámetro que se esté estimando. Dado que £'= \P-,. = \ y £j = , p.¡ = 1 , existen r 
- 1 parámetros de renglón y c - 1 de columna a ser estimados. De esta forma, el nú- 
mero de grados de libertad será re - I - (r - !)-(£■- 1) = re - r - i ■ + 
! = (/■- IKc - 1). 

Puede demostrarse que los estimados de máxima verosimilitud de/? r y pj están 
dados por 

p, = n-Jn, (10.8) 

y 

p, = ajn, (10.9) 

respectivamente. Al sustituir (10.8) y (10.9) en (10.7), se obtiene la estadística 



n J 



Ni 
22- — . (10.10) 

n 

que para valores grandes de n es, en forma aproximada, una variable aleatoria chi-cua- 
drada con (r - 1) x (c - 1) grados de libertad. 
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Ejemplo 10.5 Una compañía evalúa una propuesta para fusionarse con una corpo- 
ración. El consejo de directores desea muestrear la opinión de los accionistas para 
determinar si ésta es independiente del número de acciones que cada uno posee. Una 
muestra aleatoria de 250 accionistas proporciona la información que se muestra en 
la tabla 10.4. Con base en esta información, ¿existe alguna razón para dudar de que la 
opinión con respecto a la propuesta es independiente del número de acciones que 
posee el accionista? Úsese a = 0.10. 

La hipótesis nula se establece de la siguiente forma 

H¿- Píj - Pi-P-jf i = 1, 2, 3; 7=1, 2, 3. 

En ésta, p¡j es la probabilidad de que un accionista seleccionado al azar se encuentre 
en la categoría (i, j); p¡. es la probabilidad marginal de que el número de acciones 
que posee un accionista seleccionado al azar se encuentre en la categoría i; y p¡ es la 
probabilidad marginal de que un accionista seleccionado al azar tenga una opinión/ 
Por la expresión (10.10) la frecuencia esperada de la celda (/, j) es el producto del 
total de /-ésimo renglón por el total de lay-ésima columna dividido por el tamaño de 
la muestra n = 250. Por ejemplo, el número esperado de accionistas que están a 
favor de la propuesta y que poseen más de 1 000 acciones, es (95)(100)/250 = 38. 
Al continuar este proceso, se determinan las frecuencias esperadas para cada combi- 
nación. En cada celda de la tabla 10.5, la primera línea representa la frecuencia ob- 
servada, la segunda la frecuencia esperada y la tercera la contribución de cada celda 
al valor de la estadística, de acuerdo con (10.10). 
De esta manera, el valor de la estadística es 



, (38 - 30.4) 2 (29 - 39.52) z 

X 2 = * ~ + r^I + 



30.4 



39.52 



(4 - 7.6) 2 
7.6 



= 10.80. 



Dado que r = c = 3, el número de grados de libertad es 4. Para a = 0.1, el 
valor crítico es x 2 o.9. 4 = 7.78. De esta forma, el valor que se observa de la estadís- 
tica de prueba se encuentra dentro de la región crítica, y la hipótesis nula debe recha- 
zarse. De acuerdo con lo anterior, existe una razón para creer que la opinión con res- 
pecto a la propuesta y el número de acciones que cada accionista posee, no son inde- 
pendientes. 



TABLA 10.4 Datos muéstrales para el ejemplo 10.5 



Número de 




Opinión 






acciones 


A favor 


En contra 


indecisos 


Totales 


Menos de 200 
200-1000 
Más de 1000 

Totales 


38 
30 

32 

100 


29 
42 
59 

130 


9 

7 
4 

20 


76 
79 
95 

250 
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TABLA 10.5 Frecuencias esperadas y observadas para el ejemplo 10.S 



Número de acciones 


A favor 


En contra 


Indecisos 


Totales 




38 


29 


9 


76. 


Menos de 200 


30.40 


39.52 


6.08 


76 


i 


1.90 


2.80 


1.40 


6.10 




30 


42 


7 


79 


200-1000 


31.60 


41.08 


6.32 


79 




0.08 


0.02 


0.07 


0.17 




32 


59 


4 


95 


Mas de 1000 


38 


49.40 


7.60 


95 




0.95 


1.87 


1.71 


4.53 




100 


130 


20 


250 


Totales 


100 


130 


20 


250 




2.93 


4.69 


3.18 


10.80 
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Ejercicios 

10.1. Con base en los registros de una tienda de modas, el 50% de los vestidos adquiridos 
por ésta para la temporada se venderán a precio de menudeo, el 25% a un 20% menos 
del precio de menudeo, 15% se venderán después de una reducción en su precio del 
40% y los restantes con una disminución en su precio del 60%. Para esta temporada, se 
adquirieron 300 vestidos y su venta fue en la siguiente forma: 



Precio de venta 20% de 



40% de 



60% de 



140 



90 



30 



40. 



¿Existe alguna razón para creer que la disminución en ventas fue diferente en esta tem- 
porada con respecto a las anteriores? Úsese a = 0.05. ¿Cuál es el valor dep? 

10.2. En un hospital, el número de nacimientos observados para cada mes de cierto año, 
fueron los siguientes: 



Ene Feb Marzo Abril Mayo Jun Julio Ago Sept Oct Nov Dic 



95 105 



95 



105 90 



95 



105 110 105 100 95 100 



Si a = 0.01 , ¿existe alguna razón para creer que el número de nacimientos no se en- 
cuentra distribuido en forma uniforme durante todos los meses del año? ¿Cuál es el 
valor de pl 
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10.3. En el ejercicio 10.2, supóngase que el número de nacimientos que se observaron cada 
mes durante un periodo de 10 años es simplemente igual a diez veces los números ob- 
servados en el ejercicio 10.2 para un año. 

a) ¿Cambiará esto la conclusión del ejercicio 10.2? 

b) ¿Qué puede concluirse con respecto al empleo de prueba de bondad de ajuste chi- 
cüadrada para valores grandes de ni 

10.4. Un fabricante asegura que produce sólo el 5% de unidades defectuosas. Un comprador 
de grandes cantidades de estas unidades selecciona 100 y encuentra diez defectuosas. 

a) Mediante el empleo de la prueba de bondad de ajuste chi-cuadrada, determinar si 
existe una razón para dudar de la afirmación del fabricante. Úsese a = 0.05. 

b) Compárese la respuesta con la parte a, que se obtiene al utilizar el método aproxi- 
mado que se discutió en el capítulo 9 para probar la hipótesis nula de que la verda- 
dera proporción de artículos defectuosos es 0.05. 

c) ¿Existe alguna relación entre los valores de las estadísticas de prueba obtenidos en 
las partes ay bl ¿Existe alguna condición para esta relación? 

10.5. Una organización de seguridad vial desea determinar si el número de accidentes fatales 
se encuentra distribuido de igual forma para el color de los automóviles involucrados 
en los accidentes. La organización obtuvo una muestra aleatoria de 600 accidentes 
automovilísticos en los cuales ocurrió por lo menos una muerte y anotó el color del 
automóvil. Se obtuvo la siguiente información: 

Rojo Café Amarillo Blanco Gris Azul 

75 125 70 80 135 115 

¿Existe alguna razón para creer que las proporciones de color no son idénticas? Úsese 
a = 0.01. 

10.6. Durante un periodo de 30 años se llevó a cabo un estudio médico para determinar, 
entre otras cosas, si los hábitos de fumador pueden influenciar en el desarrollo de la en- 
fermedad cardiaca. Durante este periodo, 160 hombres desarrollaron alguna enferme- 
dad cardiaca. Estos hombres fueron clasificados como fumadores agudos (más de dos 
cajetillas de cigarros al día), fumadores moderados (una a dos cajetillas al día), fuma- 
dores ocasionales (menos de una cajetilla al día) o no fumadores. El número de 
hombres en cada categoría que desarrolló alguna enfermedad cardiaca es el siguiente: 

Fumador Fumador Fumador 
agudo moderado ocasional No fumador 

58 54 36 12 

a) Si se supone que al comienzo del estudio había una cantidad igual de hombres en 
cada una de las cuatro categorías, ¿existe alguna razón a un nivel de a = 0.01 para 
creer que las proporciones en estas categorías no son las mismas? 

b) ¿Cómo se podría prevenir al investigador médico del uso de la prueba de bondad de 
ajuste chi-cuadrada en esta situación? 

10.7. En un proceso de producción se toma una muestra aleatoria diaria de 100 artículos y se 
inspecciona para encontrar artículos defectuosos. Para una semana dada y para los 
cinco días de operación, se observó el siguiente número de unidades defectuosas: 
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Lunes Martes Miércoles Jueves Viernes 

12 7 6 5 10 

Si el porcentaje total de artículos defectuosos es del 8%, ¿puede concluirse que a un 
nivel de a = 0.05 existe una diferencia discernióle en el porcentaje diario de artículos 
defectuosos? 

10.8. Con referencia a los datos del ejercicio 1.1, empleando la prueba de bondad de ajuste 
chi-cuadrada, ¿puede concluirse que los lapsos de tiempo no se encuentran exponen- 
cialmente distribuidos con 8 = 3.2 minutos? Úsese a = 0.01. 

10.9. Considere los datos del ejercicio 1.7. 

a) Para a = 0.05, empléese la prueba de bondad de ajuste chi-cuadrada para probar 
la hipótesis nula de que la distribución del número de anotaciones de seis puntos 
por equipo y por juego en la NFL, es una distribución de Poisson con parámetro 
K = 2.7. 

b) Supóngase que se estima el valor de K a partir de los datos. ¿Cómo podría este cam- 
bio efectuar la respuesta a la parte o? 

10. 10. Úsese la estadística de Kolmogorov-Smirnov en los datos del ejercicio 1 . 1 y compare el 
resultado con el que se obtiene en el ejercicio 10.8. 

10.11. Úsese lá estadística de Kolmogorov-Smirnov para probar la hipótesis nula de que los 
datos del ejercicio 1 .2 se encuentran normalmente distribuidos con media 50 y desvia- 
ción estándar 10. Úsese a = 0.05. 

10.12. Como se notó con anterioridad, una limitación de la estadística de Kolmogorov- 
Smirnov es que debe especificarse el modelo propuesto bajo H u . A pesar de que no se 
encuentra disponible ningún método cuando algunos de los parámetros no se especifi- 
ca, Lilliefors* obtuvo los límites de rechazo a través de un estudio de simulación para 
el problema específico de probar la normalidad. Si la media y la desviación estándar 
muestral se emplean como parámetros de la distribución normal bajo la hipótesis nula, 
la estadística D„ tiene una distribución cuyos cuantiles también obtuvo Lilliefors. De 
manera específica, para a - 0.05 los valores del 95avo, percentil de la distribución 
de esta estadística bajo H fueron los siguientes: 

10 12 14 15 16 18 20 25 >25 



95avo. percentil 



0.258 0.242 0.227 0.220 0.213 0.200 0.190 0.173 0.886/\/n 



Empléese la modificación de Lilliefors a la estadística de Kolmogorov-Smirnov para 
probar la normalidad de los datos del ejercicio 1.2. Compárese el resultado con el del 
ejercicio 10.11. 

10.13. Úsese el procedimiento de la prueba de bondad de ajuste chi-cuadrada para probar la 
hipótesis nula de que los datos del ejercicio 1 .2 se encuentran distribuidos, normalmen- 
te, a un nivel de a = 0.01. 

10.14. Se toma una muestra aleatoria de 25 hombres casados y se les pregunta la edad que 
tenían cuando se casaron. Se obtienen los siguientes datos: 24, 19, 20, 22, 50, 23, 23, 

"On ihe Kolmof:t>mv-Siiiiriii>v icsi f'or noiiiuiHix wiih mean and varíame unknown. J. Amer. Stalistical 
Assoc. 64 (l%7). 399-402. 1967. 
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21, 25, 27, 45, 27, 26, 26, 35, 29, 28, 30, 31, 32, 31, 33, 34, 38, 41. Úsese la estadística 
de Kolmogorov-Smirnov para probar la hipótesis nula de que la distribución de las 
edades de los hombres cuando contrajeron sus primeras nupcias es una distribución 
gama con = 2 y a = 16. Úsese a = 0.05. (Sugerencia: Para calcular las probabili- 
dades gama, véase una tabla de la función gama incompleta determinada por (5.55).) 

10.15. En el ejemplo 4. 10, úsese la prueba de bondad de ajuste chi-cuadrada para demostrar 
que la hipótesis nula de una distribución binomiaí negativa para el número de anota- 
ciones de seis puntos, no puede ser rechazada a un nivel a = 0.05. 

10. 16. Con la prueba de bondad de ajuste chi-cuadrada determínese si la hipótesis nula de los 
datos del accidente del ejercicio 8.14 sigue una distribución binomiaí negativa, que se 
puede remitir al nivel a = 0.05 

10.17. Los totales de los renglones y columnas de una tabla de contingencia de dos caracterís- 
ticas son los siguientes: 

10 
12 
15 



14 10 



37 



Bajo la hipótesis nula de independencia, determinar la tabla de frecuencias esperadas. 

10. 18. Un proceso de producción emplea cinco máquinas en sus tres operaciones de desplaza- 
miento. Se clasificó una muestra aleatoria de 164 fallas de acuerdo con la máquina y la 
operación de desplazamiento en la que ocurrió la falla, y los resultados se muestran en 
la tabla 10.6. Con base en esta información, ¿existe alguna razón para dudar acerca 
de la independencia entre la operación de desplazamiento y la falla de la máquina? 
Úsese a = 0.01. 

TABLA 10.6 Fallas por máquina y desplazamiento 



Máquinas 
Desplazamiento A¡ B C 



1 10 


12 


8 


14 


8 


2 15 


8 


13 


8 


11 


3 12 


9 


14 


12 


10 



10. 19. Se condujo una encuesta aleatoria entre los ciudadanos en edad de votar para determi- 
nar si existía alguna relación entre la afiliación partidista y la opinión con respecto al 
control de armas. Se obtuvo la información proporcionada en la tabla 10.7. Para a = 
0.01 , ¿existe alguna razón para creer que existe una dependencia entre la opinión y la 
afiliación partidista? 

TABLA 10.7 Filiación partidaria y opiniones sobre el control de armas 
A favor En contra Sin decisión 



Demócratas 


110 


64 


26 


Republicanos 


90 


116 


14 


Independientes 


55 


35 


10 
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10.20. En una muestra aleatoria de recién egresados de la preparatoria se registraron dos ca- 
racterísticas (la calificación promedio y el número de respuestas correctas para la 
prueba SAT). Esta información se clasificó como se muestra en la tabla 10.8 

TABLA 10.8 Calificaciones promedio y número de 
respuestas correctas para la prueba SAT 

Número de respuestas correctas para la prueba SA T 
GPA 900-1100 1100-1300 1300-1500 



>3.5 


50 


65 


38 


3.0-3.5 


78 


72 


42 


2.5-3.0 


97 


80 


25 


2.0-2.5 


105 


25 


18 



a) ¿Existe una dependencia entre el número de respuestas correctas en la prueba SAT 
y el promedio de clasificaciones, discernible estadísticamente a un nivel a = 0.01 ? 

b) ¿Se tiene alguna reserva con respecto a esta clasificación? ¿Se puede pensar en otras 
características que deban considerarse? 

10.21. En un estudio reciente que involucró una muestra aleatoria de 300 accidentes automo- 
vilísticos, se clasificó la información de acuerdo con el tamaño del automóvil. 

Pequeño Mediano Grande 



Por lo menos 

un muerto 42 35 20 

Ningún muerto 78 65 60 

Con estos datos, ¿depende la frecuencia de accidentes del tamaño del automóvil? Úse- 
se a = 0.05. 

10.22. Se llevó a cabo una encuesta con respecto a la preferencia del consumidor para deter- 
minar si existía alguna predilección para tres marcas competitivas (A, B y C) depen- 
diendo de la región geográfica en la que habita el consumidor. Con base en una 
muestra aleatoria de consumidores, se obtuvo la siguiente información para tres distin- 
tas regiones. 

Región 1 Región 2 Región 3 



Marca Á 


40 


52 


25 


Marca B 


52 


70 


35 


Marca C 


68 


78 


60 



Con base en esta información, ¿la preferencia por una determinada marca depende de 
la región geográfica a un nivel a = 0.05? 



CAPÍTULO ONCE 



Métodos para el control de calidad 
y muestreo para aceptación 



11.1 Introducción 

En los últimos años ha aumentado el interés que se tiene, por parte de los producto- 
res así como de los consumidores, en la calidad de los productos manufacturados. 
Un fabricante que desea mantener cierto nivel de calidad en su producto terminado 
debe implantar un procedimiento para detectar cualquier desviación seria del están- 
dar de calidad deseado. En el logro de este fin, las tablas estadísticas de control de 
calidad y el muestreo periódico han demostrado ser medios muy efectivos para 
controlar la calidad de los productos manufacturados. 

Por otro lado, el consumidor desea asegurarse de que el producto que adquiere 
reúne ciertos estándares de calidad. Lo anterior es especialmente cierto si el consu- 
midor, como muchas veces ocurre en la práctica, compra lotes muy grandes de cierto 
producto. En estos casos es necesario establecer un procedimiento para inspeccionar 
una muestra relativamente pequeña del producto proveniente del lote para decidir si 
reúne los estándares de calidad deseados. Un procedimiento de esta naturaleza inclu- 
ye la noción del muestreo para aceptación. 

En este capítulo se analizarán los principios básicos y métodos de las tablas de 
control estadístico y los procedimientos del muestreo para aceptación. El lector debe 
considerar el material de este capítulo sólo como introducción al control estadístico 
de calidad y a los procedimientos del muestreo para aceptación, pero éste debe ser 
útil como antecedente para un estudio posterior. Con este propósito se sugieren las 
referencias [2] y [3]. 



11.2 Tablas de control estadístico 

Una tabla de control estadístico es un procedimiento inferencial basado en un 
muestreo repetitivo para estudiar un proceso. De acuerdo con su creador, W.A. 
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Shewhart, una tabla de control se emplea para definir un estándar de calidad para 
un proceso de fabricación y para determinar si éste se mantiene por el proceso. 

En el desarrollo de tablas de control, el factor clave es la variabilidad en la calidad 
del producto terminado. Para cualquier proceso, es inherente cierta cantidad de va- 
riabilidad en la calidad, sin importar cuántos esfuerzos se encaminen para lograr su 
control. Este tipo de variabilidad es una función de factores aleatorios que, de ma- 
nera común, se encuentran más allá del control. Esta variación aleatoria general- 
mente es aceptable y no compromete en modo alguno el estándar de calidad desea- 
do. La variabilidad también se puede deber a causas no aleatorias o fijas; éstas 
pueden tomar la forma de un mal funcionamiento en una máquina, indiferencia del 
trabajador, variabilidad en la calidad de las materias primas y otras. De esta forma, 
una tabla de control estadístico es el procedimiento inferencial con el cual se decide 
si una desviación observada de la norma deseada se debe sólo al azar o a alguna 
causa fija. Si la decisión es que la variación es aleatoria, entonces se dice que el proce- 
so de interés se encuentra bajo control. De oti^ n.odo, se juzga como fuera de 
control y en este caso lo que se hace, en forma general, es detener el proceso y llevar 
a s cjbo todos Jos esfuerzos necesarios para detectar la causa del problema. 

Dado que la inferencia se basa en la probabilidad, es posible que un proceso se 
juzgue fuera de control cuando, de hecho, se encuentra bajo control o viceversa. Las 
consecuencias de estos errores pueden ser severas; por ejemplo si se declara a un 
proceso como fuera de control, cuando en realidad está bajo control, se tratará de 
determinar una causa inexistente. Por otro lado, si el proceso en realidad está fuera 
de control y se permite que éste continúe, el estándar de calidad deseado no se alcan- 
zará. Debe notarse que estos errores son facsímiles de los errores de tipo I y II anali- 
zados én el capítulo 9. 

S Üsualmente, la determinación de una tabla de control depende de la toma pe- 
riódica de muestras aleatorias de tamaño n del proceso de interés, con lo que se ob- 
tiene; para cada una de éstas, un valor de alguna estadística de importancia como la 
media o la varianza muestral. Por lo tanto, la tabla de control es una gráfica de los 
valores de la estadística observada, contra el número de la muestra o contra el pe- 
riodo durante el cual se obtuvo ésta. La tabla contiene límites de control superior e 
inferior, los cuales constituyen los criterios de decisión para el proceso, es decir, el 
proceso será juzgado como bajo control mientras los valores de la estadística se en- 
cuentren dentro de estos límites. Si un valor de la estadística se encuentra fuera de los 
límites de control, se considerará al proceso como fuera de control. También se en- 
cuentra una línea central que define la norma prescrita para el proceso. 

El usuario decide cuáles deben ser los valores de los límites de control, cuántas veces 
^necesario muestrear, cuál debe ser el tamaño de la muestra que se toma y qué acción 
"¿¿alizar una vez que se juzga al proceso como fuera de control. Sin embargo, existen 
algunos principios generales que el usuario puede seguir. Shewhart argumentaba que 
podía alcanzarse un balance apropiado entre el costo del muestreo y la exactitud del 
estimador, si las muestras tienen un tamaño de cuatro o cinco observaciones cada 
vez. También los límites de control "tres-sigma" han demostrado ser muy satisfac- 
torios y son los que se emplean en Estados Unidos, así como en muchos otros países. 

Considérense las tablas de control para la media y la desviación estándar. La pri- 
mera se conoce como tabla A" y la segunda como tabla 5. Debe notarse que, de ma- 
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ñera tradicional, se emplea el rango R para determinar tablas para la variabilidad de 
un proceso debido a su cálculo fácil. Pero es mejor la tabla S, la cual no ofrece nin- 
gún problema de cálculo con los paquetes para computadora disponibles en la ac- 
tualidad. Para la determinación de las tablas Jí y S se supondrá que se muestrea una 
distribución normal; en un caso, se dará por hecho que se conoce el valor de la me- 
dia o el de la variaiiza y, para el otro, que ambos valores son desconocidos. 

11.2.1 Tablas X (media conocida de la población) 

Se puede construir una tabla de control con base en la media muestral cuando la me- 
dición de interés se encuentra normalmente distribuida con media \i y desviación es- 
tándar o o- conocidas. El conocimiento que se tiene sobre juyase puede deber a la 
naturaleza particular del proceso de interés, el cual puede proporcionar la suficiente 
información con respecto a la media y a la desviación estándar. Para este caso, una 
tabla X proporciona el procedimiento inferencial por medio del cual se puede deci- 
dir si la media del proceso es la que se afirma. 

Sea X u X 2 , .., X„ una muesta aleatoria de tamaño n del proceso de interés. 
Dado que por hipótesis X¡ ~ N(n,a), la media muestral es X ~ N((i,o-/\/ri), la 
probabilidad de que lA' - /x| sea menor que 3o-/ V"> es 

P(\X - ¡i\< 3o-/ V") = 0.9974. 

De esta forma, los límites de control tres-sigma son /x ± 3<t/V"> es decir, cuando 
se toma una muestra de tamaño n se calcula y se gráfica un valor de la media 
muestral. Si éste se encuentra dentro de los límites de control //. ± 3o-/ V«. se supone 
que el proceso se encuentra bajo control; de otra forma, está fuera de control. Por lo 
tanto, cada vez que se toma una muestra se está probando la hipótesis nula de que la 
media del proceso es igual a ¡m contra la alternativa de que ha ocurrido un corrimien- 
to en la media del proceso. El rechazo de la hipótesis nula implica que el proceso se 
encuentra fuera de control. 

Ejemplo 11.1 En un proceso de llenado se tiene una máquina que vacía una canti- 
dad promedio de 500 g en cada recipiente, con una desviación estándar de 2 g. Se to- 
man 10 muestras diarias, cada una de cinco recipientes, y se mide el peso de cada re- 
cipiente. Los pesos promedio para las 10 muestras en una semana dada son los si- 
guientes: 



Número de muestra 


i 


2 


3 


4 


5 


Promedio de \á niucsiru 


498.37 


499.49 


501.25 


498.63 


502.97 



Número de mueslr:i 



10 



Promedio de l.i 



t muestra 



500.56 499.23 498.76 501.05 500.27 



Para los límites de control 3a, ¿se encontró el proceso bajo control durante esta se- 
mana? Con estos límites, ¿cuál es la probabilidad de no detectar un corrimiento de 
500 a 503 g en la media? 
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Dado que n = 5, ju. = 500, y o- = 2, los límites de control 3 o- son 500 ±3(2/ \/5) = 
500 ± 2.6833 o (497.3 167 , 502.5833). En la figura 1 1 . 1 se muestra la tabla de control 
para las medias muéstrales. Nótese que la quinta media muestral se encuentra por 
encima del limite superior de control; de esta forma, durante este tiempo el proceso 
se juzgó como fuerade control en relación con el promedio. La probabilidad de ob- 
servar un valor de X fuera de los límites de control, si el proceso se encuentra real- 
mente bajo control, es 

P(\ X - 500 | > 2.6833) = 0.0026. 
La probabilidad de no detectar un corrimiento de 500 a 503 gramos en la media es 



/497.3167 - 503 502.6833 - 503 
/>(497.3I67 < X < 502.6833 fi = 503) = P[ 7= < Z < r 

\ 2/V5 2/V5 

= />(-6.35<Z< -0.35) 
= 0.3632. 



X 










503 








• Límite superior de control = 502.6333 


502 


- 








501 










500 
499 










- 








498 










497 


- 






Límite inferior de control = 497.3167 




I 


1 


1 1 


lililí 



4 5 6 7 

Número de la muestra 



10 



FIGURA 11.1 Tabla X para los datos del ejemplo 11.1 
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11.2.2 Tablas 5 (desviación estándar conocida de la población) ' 

En muchas ocasiones la variabilidad de un proceso es, por lo menos, tan importante 
como la media de éste; por ejemplo, en la fabricación de instrumentos de precisión, 
mantener la variación en las mediciones a un nivel aceptable es, probablemente, tan 
importante como el promedio. 

Se considerarán las tablas de control parí la variabilidad de un proceso mediante 
el empleo de la desviación estándar de la muestra 



5 = 



2üf,- - X?/(n - 1) 



Los límites de control 3cr son E(S) ± 3 d.e.(S). Para obtener E(S) y VariS), recuérde- 
se de la sección 7.5 que la variable aleatoria 

y (" ~ DS 2 

Y ~ tr 2 

tiene una distribución chi-cuadrada con n - 1 grados de libertad, en donde la fun- 
ción de densidad de probabilidad de y está dada por (7.16). Dado que 

S 2 = *** 



entonces 



S = 



n-V 

<rt n 



Pero 



en donde 



(n - D ,/2 ' 

E{S) = (n-iy /2 E{Yl/2) - 

E(Y ,/2 ) = c¡ y U2 y { "- W2 exp(-y/2)dy, (11.1) 

Jo 



c = 



r[(n - l)/2]2 ( "- ,,/2 " 
En (11.1) sea u = y/2; entonces dy = 2du y 

i E(Y" 2 ) = 2" /2 cí M ( "- 2>/2 exp(-«)í/M = 2" /2 c-nn/2). 
Jo 



Entonces 



£(5 ) = ; T^ñ 2 " /2 cI >/2) 

(n - 1) ' 

2 l/2 n»/2) (1I . 2) 

(/i - i) l/2 r[(« - i)/2i' 
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Es preferible utilizar una notación para el cQntrol.de calidad y escribir 



en donde 



^ 4 ~ (n - iy»r[(n - l)/2Y \ IJ) 



Para la varianza de S, por definición 

Var(S) = E(S 2 ) - £ 2 (5). 
Pero en la sección 7.5 se demostró que E(S 2 ) = o- 2 , en consecuencia 

Var(S) = a- 2 - c 2 <r 2 = o- : (l - c¡), 
o en la notación preferible, 

Vur(S) = do 2 . 
Por lo tanto, d.e.(S) = c 5 o-, y los límites de control 3o- son 

qo- ± 3c\,o-, (11.4) 

en donde c 4 está dada por (11.3) ye, = (1 - c 2 .)' 72 - Nótese que, dado que se supone 
que el valor de o- se conoce, los límites de control sólo son funciones del tamaño de 
cada muestra. En la tabla 11.1 se determinan los valores de c 4 y c 5 para distintos va- 
lores usuales del tamaño n de las muestras. 

Como ilustración, si o- = 2, los límites de control 3o- para la desviación están- 
dar muestral, con base en n = 5, son (0.94)(2) ± (3)(0.3412)(2) o (O, 3.9272). Para 
este ejemplo, en la tabla S el límite inferior de control es cero, la línea central se en- 
cuentra en 1 .88 y el límite superior de control es 3.9272. Para n = 5 y o- = 2, la va- 
riabilidad del proceso se considera bajo control, siempre que el valor de la desviación 
estándar muestral se encuentre dentro de los límites de control ya establecidos. 

11.2.3 Tablas X y S (media y varianza desconocidas de la población) 

Se considerarán las tablas de control para aquellos casos en los que la distribución de 
la población es normal, pero no se conocen los valores de la media y la desviación es- 
tándar. Para esta situación, los límites de control se basan en los valores estimados 
para n y a. 

Dado que no se conoce el valor promedio del proceso, tampoco se conoce la línea 
central de la tabla de control. Si la línea central es un valor estimado basado en un 
gran número de muestras, los límites de control que se obtienen de esta manera de- 

TABLA 11.1 Valores'de c. y c, para tamaños n normales de la muestra 



II 


4 


5 


6 


7 


8 


9 


10 




í'5 


0.9213 
0.3889 


0.9400 
0.3412 


0.9515 
0.3076 


0.9594 
0.2820 


0.9650 
0.2622 


0.9693 
0.2459 


0.9727 
0.2321 














- 






A 
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ben considerarse sólo como límites tentativos, ya que quizá se necesite una*modificá t 
ción antes de que se puedan utilizar para medir la calidad de un producto en futuras 
operaciones de producción. Lo anterior significa que los limites de control tentativos 
son apropiados para determinar si las operaciones pasadas de un proceso de produc- 
ción estuvieron bajo control. Para extenderlos a la producción futura, el procedi- 
miento usual es eliminar todos aquellos puntos que se encuentren fuera de los limites 
tentativos de control y recalcular el valor de éstos con base en el resto de la informa- 
ción muestra!. Se continúa este proceso hasta que todos los puntos se encuentren 
dentro de los limites de control, tanto para la tabla X como para S.La razón para este proce- 
dimiento es que los limites de control para la futura producción deben ser funciones de las ob- 
servaciones que se recabaron mientras el proceso de producción estaba bajo control. 

De acuerdo con Shewhart, los límites tentativos de control deben estar basados, 
por lo menos, en 20 muestras, cada una con cuatro o cinco observaciones. Shewhart 
denominó a estas muestras subgrupos racionales. Éstos deben seleccionarse de ma- 
nera tal que cada subgrupo sea prácticamente homogéneo y proporcione la máxima 
oportunidad de variación de un subgrupo a otro. Para un proceso de producción 
esto ¡mplica que las observaciones para un subgrupo deben tomarse en un momento 
que sea diferente al de otro subgrupo. Se emplea un tamaño relativamente pequeño 
de la muestra de cuatro o cinco observaciones, no sólo para mantener el balance 
entre el costo del muestreó y la exactitud del estimado, sino también para dar una 
mínima oportunidad de variación dentro de cada subgrupo. 

Sea m el número de muestras y supóngase que n¡ = n para toda i = 1,2 m . 

Además, sean X¡ y S¡ la media y desviación muestral de la i-ésima muestra. Para to- 
das las m muestras, defínanse las estadísticas. 






i 



S = -2S Í . (11.6) 

Es evidente que E(X) - ll\ de esta forma, el promedio de todas las m muestras en un 
estimador no sesgado de ¡x. De manera similar, 

E(S) = — 2 E(Si) = — (mc 4 ar) = c 4 cr, 
m m 

lo cual sugiere que un estimador de <r es S/c 4 . Los límites tentativos 3o - para la media 
muestral cuando no se conocen los valores de ¡x y o- son 

f±3-^7=, (11.7) 

c 4 \n 

y los correspondientes a la desviación estándar de muestra son 

S ±3^, (11.8) 

en donde los valores de c 4 y c 5 son los ya definidos. 
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Ejemplo 11.2 Los datos en la tabla 1 1 .2 son 20 muestras, cada una con cinco ob- 
servaciones tomadas en intervalos de dos horas, de la resistencia a la tensión en 
libras de un hilo. Para cada muestra se proporcionan los valores de la media y la des- 
viación estándar. Construyanse las tablas de control X y 5 con base en estos datos. 



Al promediar las 20 medias muéstrales se obtiene x = 47. 12, y sise promedian 
las desviaciones estándar muéstrales, se tiene s = 2.326. Para n = 5, c 4 = 0.94 
y c 5 = 0.3412. Entonces, por (11.7) y (11.8), los límites tentativos de control 3o- para 
las medias muéstrales son 



47.12 



(3X2.326) 
(0.94)V5 



= (43.80, 50.44), 



y los límites para las desviaciones estándar muéstrales son 



2.326 



(3)(0.3412)(2.326) 
0.94 



= (0, 4.8589). 



En la figura 1 1.2 se proporcionan las tablas de control. Nótese que la variabili- 
dad del proceso parece estar bajo control, pero la media muestral para la vigésima 
muestra se encuentra fuera de los límites tentativos. Debido a lo anterior, se ob- 
tienen nuevos valores para los límites después de omitir esta muestra. Éstos son 



47.31 ± 



(3X2.368) 
(0.94)V5 



= (43.93, 50.69) 



TABLA 11.2 Datos de la muestra de la resistencia a la tensión de un hilo en libras 



Número de 
















la muestra 






Valores de la muestra 




X 


S 


1 


44 


46 


48 


52 


49 


47.8 


3.03 


2 


44 


47 


49 


46 


44 


46.0 


2.12 


3 


47 


49 


47 


43 


44 


46.0 


2.45 


4 


45 


47 


51 


46 


48 


47.4 


2.30 


5 


44 


41 


50 


46 


50 


46.2 


3.90 


6 


49 


46 


45 


46 


49 


47.0 


1.87 


7 


47 


48 


50 


46 


47 


47.6 


1.52 


8 


49 


46 


51 


48 


46 


48.0 


2.12 


9 


47 


42 


48 


44 


46 


45.4 


2.41 


10 


46 


48 


45 


51 


50 


48.0 


2.55 


11 


45 


47 


51 


48 


46 


47.4 


2.30 


12 


52 


51 


48 


48 


45 


48.8 


2.77 


13 


45 


45 


47 


49 


44 


46.0 


2.00 


14 


46 


47 


43 


48 


45 


45.8 


1.92 


15 


48 


49 


52 


46 


51 


49.2 


2.39 


16 


44 


46 


45 


47 


52 


46.8 


3.11 


17 


48 


50 


47 


46 


49 


48.0 


1.58 


18 


48 


52 


51 


47 


46 


48.8 


2.59 


19 


47 


51 


50 


46 


49 


48.6 


2.07 


20 


44 


43 


42 


43 


46 


43.6 


1.52 
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X 

: v 

■_ 48 
46 
44 



-rifo 



Límite tentativo superior '= 50.44 e ^' jJ "< íi ' 




J — I I I I I 



Límite tentativo inferior = 43.80 

J I I I I I I I I I I I I 

20 



10 



15 







Número de la muestra 


s 

4 


1 


Límite tentativo superior = 4.8589 


3 


-\J 


y — ^y\ y\ Av 


2 




\y ^y Y\ 


1 


111 1 1 


Límite tentativo inferior = 
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 



10 
Número de la muestra 



15 



20 



FIGURA 11.2 Tablas X y S para los datos del ejemplo 1 1 .2 



para X y los límites 



2.368 



(3)(0.3412)(2.368) 
0.94 



(0 4.9466) 



para S. Se observa que todos los puntos se encuentran dentro de los nuevos límites 
tentativos, tanto en la tabla X, como en la S. 

La construcción de las tablas X y S se basa en la distribución normal. La tabla X 
es, relativamente, insensible a la hipótesis de normalidad debido al teorema del límite 
central. Sin embargo, la tabla S es mucho más sensible a la hipótesis de normalidad. 

Vale la pena mencionar la existencia de la tabla p. La tabla p puede construirse 
cuando sé supone que el muestreo se lleva a cabo sobre una distribución binomial 
con parámetro de proporción p. Los límites de control se obtienen para las propor- 
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ciones de muestra de unidades que caen en una de dos categorías posibles. Para esta 
'situación, lo que generalmente es de interés, es vigilar la proporción de unidades de- 
fectuosas, que produce un proceso de manufactura. 

Para construir los límites de control para las proporciones muéstrales, supóngase 
que no se conoce el valor de/?. Sea m el número de muestras disponible, y X¡ el núme- 
ro de unidades defectuosas en la /-ésima muestra de tamaño n. Entonces X¡/n..es un 
estimador de p basado en la /-ésima muestra, y P = ( 1 /mn) S"i , X, es un estima- 
dor de/; basado en todas las m muestras. De acuerdo con lo anterior, los limites ten- 
tativos 3cr para las proporciones muéstrales XJn son 



3 P(\ - P) ()L9) 
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Un consumidor puede escoger uno de los tres caminos siguientes para verificar la ca- 
lidad de los artículos de un embarque que ha recibido: inspeccionar todos los 
artículos en el lote; inspeccionarlos en una muestra aleatoria proveniente del lote, o 
aceptar el lote sin llevar a cabo ninguna inspección. La primera opción tiene general- 
mente un precio prohibitivo y la última es poco probable que sea aceptada por un 
consumidor serio, con respecto a la calidad de los artículos que adquiere. Por lo 
tanto, la opción que tiene un balance adecuado entre el costo de la inspección y el 
que implica aceptar un lote y usar artículos defectuosos, es la de inspeccionar los 
artículos en una muestra aleatoria proveniente del lote que se acaba de adquirir. Con 
base en el proceso de inspección, la decisión usual es aceptar el lote, rechazarlo o to- 
mar otra muestra aleatoria. Si la decisión de aceptar o rechazar se toma con base en 
los valores medidos de los artículos, con respecto a una medición física continua, en- 
tonces se dice que la inspección se lleva a cabo por variables. Si los artículos que se 
inspeccionan se clasifican como defectuosos o no defectuosos, y el lote se acepta o 
rechaza con base en el número de artículos defectuosos en la muestra, se dice que la 
inspección se lleva a cabo por características. 

En esta sección se considerarán los fundamentos para desarrollar planes sencillos 
de muestreo con base en características para decidir si se acepta o se rechaza un lote. 
Posteriormente se examinará en forma breve el muestreo para aceptación por va- 
riables. Sea N el tamaño del lote. Entonces un plan básico de muestreo para acepta- 
ción es seleccionar n artículos del lote de tamaño N y aceptar el lote si el número de 
artículos defectuosos en la muestra es menor o igual a un número de aceptación c, 
previamente estipulado. De otra forma, el lote se rechaza. Por ejemplo, un plan de 
muestreo puede definirse de la siguiente forma N = 10 000, n = 100, y c = I. 
Lo anterior significa que se seleccionarán, en forma aleatoria, 100 artículos de los 
10 000 que contiene el lote, y si se encuentra cuando mucho un artículo defectuoso, 
se aceptará el lote de N = 10 000 artículos. Si hay más de un artículo defectuoso, el lote será 
rechazado. El consumidor puede escoger entre regresar el lote rechazado al fabricante o so- 
meterlo a una inspección del 100% . El primero constituye lo que se conoce como un procedi- 
miento de inspección no verificable, y el segundo como proceso de inspección verificable. 
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Supóngase que la información disponible para el consumidor con respecto ala 
calidad de los artículos en el lote, es la proporción promedio de artículos defectuosos 
que produce el proceso de manufactura que los fabrica. Un criterio muy importante 
en un plan de muestreo es la probabilidad de aceptar el lote P(A), dada una propor- 
ción de artículos defectuosos p. Bajo las hipótesis adecuadas y para algún valor dep 
y de c, la probabilidad de que el lote sea aceptado con base en una muestra de tama- 
ño n, es la probabilidad binomial acumulativa 

P(A) - P(X^c) = t ("Vil - />)-*, (11.10) 



en donde la variable aleatoria X representa el número de artículos defectuosos en- 
contrados en la muestra. Si np tiene un tamaño moderado, la probabilidad binomial 
dada por (1 1 . 10) se puede aproximar en forma adecuada por la probabilidad acumu- 
lativa de Poisson 

P(A) = ¿^exp(-X), (11.11) 

en donde K = np. 

Una gráfica de la probabilidad de aceptación contra p, es la curva de operación 
característica (CO). Como ilustración se analizará el plan de muestreo n = 100 y c 
= 2. Mediante el empleo de la aproximación de Poisson dada por (11. 1 1) se obtiene 
la probabilidad de aceptar para valores de/7 en un intervalo de 0.01 a 0.09. Las proba- 
bilidades de aceptación se dan en la tabla 1 1 .3 y están graficadas contra p en la figu- 
ra 11.3. 

La naturaleza de una curva CO es afectada por el tamaño, n de la muestra y por el 
número de aceptación c. Como ilustración, considérense los planes de muestreo 
n = 50, c = 1; n = 100, c = 2; y n = 200, e = 4. En la figura 11.4 se 
muestran las curvas CO para estos planes. Nótese que aunque el cociente c a n es 
constante, las curvas CO son algo diferentes. De hecho, las curvas son más sensibles 
al tamaño de la muestra. Conforme n aumenta, la pendiente de la curva se torna más 
pronunciada. De esta forma, para tamaños grandes de la muestra, la probabilidad de 
aceptación disminuye muy rápidamente conforme el valor de p aumenta. Si el valor 
de n es fijo, un aumento en el número de aceptación c tenderá a desplazar a la curva 
hacia la derecha. Esto implica que para unap dada, la probabilidad de aceptación es 
alta conforme c aumenta. En consecuencia, puede pensarse que entre más cercano a 
cero se encuentre el valor de c, mejor es el plan de muestreo. Pero la figura 11.4 indi- 
ca que los planes con valores grandes de c son mejores siempre que el tamaño de la 
muestra sea, apreciablemente, grande. 



TABLA 11.3 Probabilidades de aceptación para el plan de muestreo n - 100, c = 2 



p 


0.01 


0.02 


0.03 


0.04 


0.05 


0.06 


0.07 


0.08 


0.09 


P(A) 


0.9197 


0.6767 


0.4232 


0.2381 


0.1247 


0.0620 


0.0296 


0.0138 


0.0062 
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0.02 0.04 0.06 0.08 p 



FIGURA 11.3 Curva característica de operación para el plan de muestreo n = 100, c = 2 




0.02 0.04 0.06 0.08 0.10 P 



FIGURA 11.4 Curvas características de operación para los tres planes de muestreo 
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El desarrollo de buenos planes de muestreo incluye tanto al productor como al 
comprador del lote. De manera normal el productor es el vendedor y el consumidor 
el comprador. Un productor ciertamente desearía que el consumidor rechazara un 
porcentaje muy pequeño de los lotes vendidos y que son, en general, buenos; el con- 
sumidor desearla aceptar un porcentaje muy pequeño de los lotes que son malos. De 
esta forma los dos experimentan cierto riesgo. Supóngase que ambos están de acuer- 
do én que un lote es aceptable si la proporción de artículos defectuosos es p ,« p, , y 
no aceptable si p 3= p 2 . Se dan las siguientes definiciones que implican riesgos. 

Definición 11.1 El riesgo del productor a es la probabilidad de que el consumidor 
rechace un lote cuya proporción de artículos defectuosos no es mayor que p v 

Definición 11.2 El riesgo del consumidor (3 es la probabilidad de aceptar un lote 
cuya proporción de artículos defectuosos es mayor o igual a P2 . 

Con base en estas definiciones, el riesgo del productor es la probabilidad del 
error de tipo I, dado que éste representa la probabilidad de rechazar un lote acep- 
table. De manera similar, el riesgo del consumidor es la probabilidad del error de 
tipo II, ya que éste representa la probabilidad de equivocarse al no rechazar un lote 
inaceptable. En otras palabras, la situación anterior es análoga a probar la hipótesis 
nula H - p = Pí contra la alternativa H, : p = p 2 . 

Los riesgos del productor y del consumidor pueden representarse por dos puntos 
sobre una curva característica de operación, como se ilustra en la figura 11.5. En 



P(A) 



Punto de riesgo para el productor 
AQL = Pl 




Punto de riesgo para el consumidor 
LTPD = p 2 



FIGURA 11.5 Curva CO para los puntos de riesgo especificados para el productor y el con- 
sumidor 
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este contexto, p x recibe el nombre de nivel aceptable de calidad (NAQ, y p 2 el de to- 
lerancia de la proporción de defectuosos en el lote (TPDL). La práctica usual ha sido 
la de escoger la probabilidad de aceptación P(A) - 1 ■ ■ - a en NAC cercano al puntó 
0.95 de la curva, y la probabilidad de aceptación P(A) = j3 en TPDL cercano al 
punto 0.10 sobre la curva. Entonces, el 95Vo de los lotes que provienen de un proce- 
so cuya proporción de artículos defectuosos se encuentra en NAC, o por encima de 
éste, se aceptará, mientras que sólo el 10% de los que provienen de un proceso cuya 
proporción de artículos defectuosos se encuentra en TPDL o más, será aceptada. 

11.3.1 El desarrollo de planes de muestreo sencillos 

para riesgos estipulados del productor y del consumidor 

Se examinará un procedimiento para obtener planes de muestreo sencillos para valores 
especificados de los riesgos del productor y del consumidor. La esencia del procedi- 
miento está en determinar el tamaño de la muestra n y el número de aceptación c, 
dadas las probabilidades de aceptación en el NAC y el TPDL. Por ejemplo, supón- 
gase que se desea un plan sencillo de muestreo para el que la curva característica de 
operación pasa a través de un riesgo del productor a = 0.05 en un NAC de 0.01 , y 
de un riesgo del consumidor j3 = 0. 1 en un TPDL de 0.05. De esta forma, las pro- 
babilidades de aceptación al NAC = 0.01 y TPDL = 0.05 son 0.95 y 0. 1 , respectiva- 
mente. 

Supóngase que las condiciones son tales, que la distribución de Poisson propor- 
cionará una aproximación adecuada. Sea X la variable aleatoria que representa el 
número de artículos defectuosos en una muestra de tamaño n. Entonces para el ries- 
go del productor, se desea obtener n y c, tales que 

P(A) = P(X^c) = ¿ XrCXP ¡~" X) = 1 -a, (11.12) 

v = X - 

en donde X = np,. De manera similar, para el riesgo del consumidor, se desea ob- 
tener «ye, tales que 

P(A) = P(X^c) = ¿ VeXP !" X) = /3, (11.13) 



en donde ahora X = np r Dado que se conocen los valores de a, ¡3,p t yp 2 , el procesa- 
miento se reduce a la solución simultánea de (11.12) y (11.13) para n ye. No existe 
ningún método directo para resolver estas dos ecuaciones; en otras palabras, es vir- 
tualmente imposible determinar un plan de muestreo cuya curva CO pasa en forma 
exacta a través de dos puntos (p, , I - a) y (p 2 . /3) debido a que los valores de n y 
c deben ser números enteros. Lo que se hace en forma general, es obtener cuatro pla- 
nes, dos de los cuales tendrán el valor dado de a pero diferirán muy poco para el va- 
lor de /3, mientras que los otros dos tendrán el valor de /3 dado, pero diferirán muy 
poco del valor de a. 

Dados a = 0.05, (3 = 0.1, p¡ _= 0.01, y p 2 = 0.05, el procedimiento es el 
siguiente: sea X i = np, y X 3 = np 2 y fórmese el cociente de X 2 a X,. Para el ejem- 
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pío se observa, que el valor de éste es 5. En forma ideal, lo que se busca es obtener 
el valor de c cuando X 2 /X i es exactamente 5. Dado que no es probable tener este va- 
lor de manera precisa, lo que se desea es determinar los dos valores de c que se en- 
cuentran relacionados con el valor de 5. Los'anteríor puede lograrse si se inicia con 
c = y se interpola, para encontrar valores X,, tales que P{A) = 1 - a, y para 
Xj, tales que P(A) = /3, mediante el empleo de la distribución acumulativa de Pois- 
son (tabla B del apéndice). Entonces se aumenta el valor de c, y se continúa el proce- 
so hasta que se encuentren los valores de c que estén relacionados con el cociente 
deseado. Los tamaños correspondientes de las muestras se obtienen, primero, al fi- 
jar la probabilidad de aceptación del riesgo del productor dado, y después al hacer lo 
mismo para el riesgo del consumidor, este procedimiento dará como resultado cua- 
tro planes de muestreo diferentes. 

Dado que /^A) = 0.95 ye =. 0, se obtiene que X, = 0.05. De manera similar, 
para P(A) = 0.1 y c = 0, X 2 tiene un valor de 2.30, y para el cociente X 2 /X, = 46. 
Ahora, para P{A) = 0.95 y c = 1, X, = 0.36, y para P(A) = 0.10, X 2 = 3.9. 
De esta forma X 2 /X| = 10.83. El proceso continúa y se obtienen los resultados que 
se muestran en la tabla 11.4. Los dos valores de c que se relacionan con el cociente 
ideal de 5 son 2 y 3. 

Para obtener n, supóngase que se mantiene el riesgo del productor en a = 0.05. 
Entonces parac = 2, npi = 0.82; pero p, = 0.01 y n = 82. Para el plan n = 82 
y c = 2, la probabilidad de aceptar a un nivel TPDL = 0.05 se obtiene mediante 
X 2 = (82)(0.05) = 4.1. De cuerdo con lo anterior P(A) = P{X « 2) = 0.2238. 

Si se fija el riesgo del consumidor en fi = 0. 1 , entonces para c = 2, np 2 = 5.32, 
y n = 107. Como resultado se tiene que X i = (I07)(0.01) = 1.07, y la probabili- 
dad de aceptar en unNAC = 0.01 es P(A) = P(X « 2) = 0.91. Se pueden es- 
tablecer los otros dos planes si se repite el proceso anterior con c - 3. En la tabla 
1 1 .5 se resumen los cuatro planes; de éstos, el que parece tener la menor importancia 
con respecto al riesgo especificado del consumidor es n = 82 y c = 2. Los otros tres, 
en especial los últimos dos, se encuentran cercanos a los riesgos especificados, tanto 
del productor como del consumidor. La decisión final sobre cuál adoptar se toma 
con base en las circunstancias de la situación. 

11.3.2 Muestreo para aceptación por variables 

La mayoría de los planes de muestreo para aceptación se llevan a cabo por caracte- 
rísticas, debido a dos razones fundamentales: la inspección por características es 



TABLA 11.4 Determinación de los valores de c que se encuentran relacionados con \ 2 /K, = 5. 



Número de 
aceptación c 


Valor de A, 
para P(A) = 


= np, 
0.95 


Valor de A> 
paraP(A) = 


= np^ 
0.1 


A:/A, 



1 

2 

3 


0.05 
0.36 
0.82 
1.37 






2.30 
3.90 
5.32 
6.68 




46.00 

10.83 

6.49 

4.88 



394 Métodos para el control de calidad y muestreo para aceptación 

TABLA 11.5 Cuatro planes de muestro para a = 0.05, = 0. 1 , NAC = 0.01 , y TPDL = 
0.05. :>¿>'-m--^. .-.■..■ 

. ; Probabilidad de aceptación Probabilidad de aceptación 

Plan de muestreo para NAC= 0.01 para TPDL = 0.05' 

n = 82, c = 2 . 0.95 0.2238 

n = 107, c = 2 0.91 0.10 

n = 137, c = 3 0.95 0.09 

n = 134, c = 3 0.95 0.10 



muy económica y muchas de las características de calidad sólo son observables como 
atributos. Sin embargo, en algunos casos puede hacerse una medición física de la ca- 
lidad de un producto dado. Cuando la aceptación se hace con base en mediciones 
físicas se dice que el muestreo se lleva a cabo por variables. Cuando éste es posible, 
se convierte en el tipo de muestreo más popular, ya que una medición física es pro- 
bable que proporcione mucho más información útil con respecto a la calidad de un 
producto que la dada por característica. Además, pueden obtenerse curvas CO más 
pronunciadas para el mismo tamaño de la muestra. La inspección por variables en 
general es más costosa que la inspección por características, debido a que, principal- 
mente, tiene que aplicarse el criterio de aceptación por separado para cada medición 
de calidad cuando se muestrea por variables. 

En el caso sencillo en el que la aceptación de un lote se hace con base en las me- 
dias de la muestra, se supone que la medición de la calidad es una variable aleatoria 
normalmente distribuida y con varianza conocida. Sean a el riesgo del productor y 
H a el promedio del lote para el que la probabilidad de aceptación es 1 - a. En for- 
ma similar, sea /3 el riesgo del consumidor y np el promedio del lote para el cual la 
probabilidad de aceptación es /3. Es decir, si el lote tiene una media /¿ a , se desea acep- 
tar el lote con una probabilidad 1 - a, y si éste tiene una media /i (/i a > /ip) se 
desea aceptar el lote con una probabilidad /3. Dados a, /3, fi a , y /i , el plan de 
muestreo por variables es una muestra de tamaño n y un valor_de aceptación x„, ta- 
les que, cuando el valor observado de la media de la muestra X es mayor que x„, el 
lote será aceptado. 

Para obtener x„ y n, considérese lo siguiente. Para el riesgo del productor 



P(X^x ü ) = a 



""17V?'- 



en donde 



cr/Vñ 



z a . (11.14) 
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Para el nesgo del consumidor .,,,/.,. 



i z> *tt)-* 



'9 msl 



rl\Tn 
en donde 

a/y/n 



= z,-,,. (11.15) 



Las ecuaciones dadas por (11.14) y (1 1.15) dependen de las incógnitas x„ y n. Al re- 
solver (1 i. 14) y (11.15) para *„, se tiene 

x„ = —7=2» + M« (11.16) 

y 

_ O" 

■*« = —¡=Z\-p + Hf}. (11.17) 

V« 

Al igualar (1 1 . 16) y (1 1 . 17) y resolver para n, se tiene 






2 

(11.18) 



Cuando se emplea (1 1.18) para obtener el tamaño de la muestra, el valor de acepta- 
ción x„ se obtiene, ya sea de (11.16) o de (11.17). 

Ejemplo 11.3 La compañía constructora de un gran edificio de oficinas se interesa 
en la resistencia a la compresión del concreto que se empleará en la construcción del 
edificio. El proceso a través del cual se fabrica el concreto con una resistencia pro- 
medio de 350 kilogramos por centímetro cuadrado es bueno. El concreto adquirido 
en este proceso debe aceptarse el 95% de las veces. Un proceso que ofrece una resis- 
tencia promedio de 347 kilogramos por centímetro cuadrado no es efectivo, y al ser 
adquirido será rechazado el 90% de las veces. Si el fabricante de cemento asegura a 
la compañía que la desviación estándar de su proceso no es mayor de 5 kilogramos 
por centímetro cuadrado, ¿cuántas muestras de concreto debe inspeccionar el 
contratista con respecto a su resistencia, y cuál debe ser el valor de aceptación para 
la media de la muestra bajo las condiciones dadas? Supóngase que la resistencia a la 
compresión del concreto se encuentra normalmente distribuida. 

Los riesgos del productor y del consumidor están dados como a = 0.05 para 
¡x, t = 350 y /3 = 0.10 para ju.^ = 347, respectivamente. Para a = 0.05 y 
1 - j3 = 0.9, los valores cuantiles normales estandarizados correspondientes son 
mu>5 = _ 1 -643 y ¿o.t) = 1 -282. Entonces, mediante el empleo de (1 1.18), el tama- 
ño necesario de la muestra es 
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n = 



5(1.282 + 1.645) T J ' ' 

350 - 347 W J .." ' 



Para el riesgo del productor (11.16) 

5 



'" V24 
y para el del consumidor (11.17) 



(-1.645) + 350 = 348.32, 



x„ = —=(1.282) + 347 = 348.31. 

V24 

Para x„ = 348.32, el plan de muestreo consiste en probar la resistencia de 24 
muestras de concreto provenientes del proceso v aceptar el concreto siempre que la 
resistencia promedio sea mayor de 348.32 kilogramos por centímetro cuadrado. 

11.3.3 Sistemas de planes de muestreo 

Desde la Segunda Guerra Mundial, los planes de muestreo para aceptación se han 
convertido en procedimientos estándar para asegurar la calidad de los productos 
manufacturados y con este propósito se ha desarrollado una gran variedad de siste- 
mas de planes de muestreo para aceptación. Tres de los sistemas más empleados son 
M1L-STD-105D*, M1L-STD-414, y el Dodge-Romig Sampling Inspection Tables. 
En las referencias [4], [5] y [1] se encuentra información detallada de estos sistemas. 
Los primeros dos fueron desarrollados por el Departamento de la Defensa y se apli- 
can bajo un procedimiento de inspección no verificable. M1L-STD-105D contiene 
planes para el muestreo por características y MIL- STD-4I4para el muestreo por va- 
riables. Los planes de muestreo Dodge-Romig se basan en un programa de inspec- 
ción con verificación; estos suponen un porcentaje de unidades defectuosas del proce- 
so conocido, y los planes de muestreo sencillos se encuentran indexados por TPDL 
para riesgo del consumidor de 0.10. Estos tres sistemas se encuentran descritos en [3]. 
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Ejercicios 

11.1. El consejo estatal formado para controlar la calidad del agua selecciona cada semana 
cinco muestras de agua de una fuente de abastecimiento y determina la concentración 
promedio de una sustancia tóxica. Los siguientes datos son las cantidades promedio en 
partes por millón durante 12 semanas. 



Semana 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


II 


12 


Media 

de la muestra 


5.2 


4.9 


5.5 


5.4 


4.8 


4.6 


5.5 


4.7 


5.1 


4.5 


5.8 


5.6 



a) Si los valores de la concentración promedio y de la desviación estándar son 5 y 0.5 
ppm, respectivamente, obténganse los limites de control 3a para la concentración 
promedio. Para este periodo, ¿existió alguna razón para alarmarse? 

b) Si se considera como peligrosa una concentración de 6 ppm, ¿que tan probable es 
tener un resultado como el anterior, con base en cinco muestras de agua, si la con- 
centración real promedio es de 5 ppm? 

c) Mediante el uso de los limites de control de la parte a, ¿cuál es la probabilidad de 
detectar un desplazamiento en el valor de la concentración media de 5 ppm a 5.25 
ppm? 

1 1 .2. Mediante el empleo de la información proporcionada en el ejercicio 11.1, obténganse 
los límites de control 3<r para la desviación estándar de la muestra. 

11.3. Los siguientes datos son las tensiones de ruptura promedio de seis muestras de metal 
tomadas en forma periódica: 



Muestra 



Media 

de la muestra 



1 23456789 10 



498.6 508.3 484.6 505.7 491.7 495.4 482.6 515.2 510.8 503.7 



Se sabe que los valores de la tensión de ruptura promedio y de la desviación estándar 
son 500 y 20 libras, respectivamente. 

a) Obténganse los límites de control 3a para la tensión de ruptura media de la muestra y 
hágase una gráfica de la tabla de control. ¿Existe alguna media muestral que se en- 
cuentre fuera de los límites de control? 

b) Obténgase la probabilidad de no detectar un corrimiento en el valor real de la ten- 
sión de ruptura promedio de 500 a 494 libras. 

c) Obténganse los limites de control 3o- para la desviación estándar muestral. 

1 1 .4. Los datos que se encuentran en la tabla 1 1 .6 consisten en 20 muestras, cada una con 
cuatro observaciones, de los diámetros de cojinetes producidos por un proceso de ma- 
nufactura. 

a) Construyanse los limites tentativos 3a para las tablas de control X y 5. 

b) Si se detecta que el proceso no se encuentra bajo control, con base en alguna 
muestra, recalcúlense los límites tentativos. 
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TABLA 11.6 Datos de la muestra para el ejercicio 1 1 .4 



Número de 










la muestra 




Valores de la muestra (en centímetros) 


1 


4.01 


4.03 


3.98 


4.04 


2 


3.97 


3.99 


3.99 


4.02 


3 


4.06 


4.05 


3.97 


4.02 


4 


3.% 


3.98 


4.07 


4.03 


5 


3.98 


3.99 


3.99 


4.00 


6 


4.01 


4.02 


3.96 


3.99 


7 


3.95 


3.98 


4.02 


4.03 


8 


4.03 


4.00 


3.96 


4.04 


9 


4.07 


3.% 


3.98 


4.05 


10 


3.98 


3.97 


4.02 


4.04 


11 


3.92 


4.03 


4.05 


3.99 


12 


3.97 


4.05 


4.04 


4.01 


13 


4.04 


4.04 


3.96 


3.99 


14 


4.03 


4.00 


4.02 


4.05 


15 


3.95 


3.% 


3.95 


4.02 


16 


4.05 


4.09 


4.07 


4.02 


17 


3.98 


4.06 


4.04 


4.03 


18 


4.01 


4.02 


4.00 


3.97 


19 


4.02 


4.01 


4.05 


3.99 


20 


3.99 


3.99 


4.01 


4.00 



11.5. Las tablas de control X y S de un proceso de llenado de recipientes se conservan por 
algún tiempo. Con base en 25 muestras periódicas, cada una con cinco recipientes, se 
obtiene que X = 400.2 g y 5 = 15.3 g. 

a) Si se supone que el proceso de llenado se encuentra bajo control ¿cuáles son los 
límites de control de la media y la desviación estándar muestral? 

b) Obténgase un estimado de la desviación estándar del proceso. 

11.6. En el ejercicio 11.5, supóngase que cada muestra contenía seis recipientes. ¿Cómo 
puede afectar este cambio a las respuestas de las partes a y bl 

1 1.7. En un proceso de manufactura, cada día se seleccionan al azar 100 unidades y se envían 
para su inspección. Los siguientes datos son el número de unidades defectuosas en la 
muestra durante 25 días. 



Día 



1 



10 II 12 13 



Número de 

unidades 

defectuosas 



Día 


14 


15 


16 


17 


18 


19 


20 


21 


22 


23 


24 


25 


Número de 

unidades 

defectuosas 


3 


2 


1 





6 


4 


5 


2 


1 


8 


3 


2 



a) Con base en esta información, obténgase una tabla p. 

b) Revísense los límites de control si algún día el proceso se juzgó como fuera de 
control. 
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c) Si se supone que el proceso se encuentra bajo control con un porcentaje de unidades 
defectuosas, igual al obtenido en la parte b, ¿cuál es la probabilidad de que, en un 
día determinado el proceso se considere como fuera de control? 

1 1.8. Se supone que el porcentaje de unidades defectuosas para un proceso de manufactura 
es de 4%. El proceso se vigila diariamente mediante la toma de muestras de n = 80 
unidades. Éste se detiene cada vez que se encuentran cinco o más unidades defectuosas 
en la muestra. Si el verdadero porcentaje de unidades defectuosas es de 5.5%, ¿cuál es 
la probabilidad de detener el proceso? 

11.9. Supóngase que la calidad de un lote muy grande es de sólo 5% de unidades defec- 
tuosas. Un plan de muestreo para aceptación requiere una muestra de 40 unidades y un 
número de aceptación igual a 2 unidades. 

a) ¿Cuál es la probabilidad de que el lote sea aceptado? 

b) Si la calidad real del lote es de 6.25% de unidades defectuosas, ¿cuál es la probabili- 
dad .': que el lote sea aceptado? 

11.10. Para el ejercicio 1 1 .9, supóngase que el tamaño de la muestra es de n = 80 unidades y 
el número de aceptación es igual a cuatro unidades. ¿Cómo afectarán estos cambios a 
las respuestas de las partes a y bl 

11.11. La candad de un lote de N = 20 unidades es del 10% defectuosas. Si se toma una 
muestra aleatoria de cinco unidades y no se encuentra ninguna defectuosa se aceptará 
el lote. ¿Cuál es la probabilidad de aceptar el lote? 

11.12. Hágase una gráfica de las curvas características de operación para los planes de 
muestreo n = 25, c = 1 y n = 50, c = 2. Compárense las curvas características de ope- 
ración. 

11.13. Para el plan de muestreo n = 25, c = 1 , empléese la curva CO para obtener el TPDL 
para un riesgo del consumidor de 0.05. 

11.14. Para el plan de muestreo n = 50, c = 2, empléese la curva CO para obtener el NAC 
para un riesgo del productor de 0.05. 

11.15. Obténganse los cuatro planes de muestreo que relacionarán los riesgos del productor y 
del consumidor de a = 0.05 para NAC = 0.02 y (3 = 0. 1 para TPDL = 0.08, res- 
pectivamente. 



tor y 



Jm 

m 



1 1 . 16. Obténganse los cuatro planes de muestreo que relacionarán los riesgos del producK 
del consumidor de a = 0.10 para NAC = 0.01 y /3 = 0. 1 para TPDL = 0.05. 

1 1 . 17. En muchas ocasiones se emplea un plan de muestreo doble para el muestreo de acepta- 
ción; este plan requiere una muestra aleatoria de n, unidades de un lote de N unidades. 
Si el número de unidades defectuosas no es mayor que c,, el lote se acepta; si se 
encuentra una cantidad de unidades defectuosas es > c, el lote se rechaza. Si el núme- 
ro de unidades defectuosas en la primera muestra es mayor que c ¡t pero menor que c 2 , 
se toma otra muestra aleatoria de tamaño n Y El lote se acepto si el número de unida- 
des defectuosas en ambas muestras no es mayor que c\; de otra forma el lote se recha- 
za. Mediante el empleo de este procedimiento determínense las siguientes probabilidades 
para el doble plan de muestreo N = 5000, n, = 50, tu = 80. c, = 0, es = 3 si la cali- 
dad del lote es de 2% de unidades defectuosas. 

a) La probabilidad de aceptar el lote con base en la primera muestra. 
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b) La probabilidad de rechazar el lote con base en la primera muestra. 

c) La probabilidad de aceptar el lote después de tomar la segunda muestra. ' 

d) La probabilidad de rechazar el lote después de tomar la segunda muestra. £ 

11.18. Una agencia estatal se encarga de vigilar el nivel de concentración de cierto contami- £ 
nante químico, el cual ha sido derramado en grandes cantidades en uno de los ríos más y 
grandes, del estado. La agencia debe decidir en forma periódica cuándo el nivel de con- ': 
centración se encuentra entre límites seguros para permitir la pesca con fines comer- 
ciales. La agencia desea obtener un plan de muestreo por variables de tal manera que 
cuando el nivel de concentración promedio real sea de 5.6 ppm decidirá el 95% de las 

veces que la pesca continúe. Pero desea prohibir la pesca el 99% de las veces que se ob- 
serve una concentración hasta de 6.0 ppm. Si la desviación estándar no es mayor de 
una parte por millón, determínese el plan de muestreo. Supóngase que la concentra- 
ción de este contaminante se encuentra normalmente distribuida. 

11.19. Un comprador de grandes cantidades de hilo desea desarrollar un plan de muestreo por 
variables para la tensión de ruptura del hilo. El hilo será aceptado por el comprador si 
su tensión de ruptura es mayor de 60 libras. Si se sabe que la desviación estándar del 
hilo es de 8 libras y dados a = 0.05, /J = 0.05, NAC = 0.05yTPDL = 0.1, obténga- 
se el plan de muestreo. Supóngase que la tensión del hilo se encuentra normalmente 
distribuida. 



CAPÍTULO DOCE 



Diseño y análisis 

de experimentos estadísticos 



12.1 Introducción 

En las secciones 9.6.3 y 9.6.4 se introdujeron algunas ideas básicas con respecto a la 
planeación y adquisición de datos experimentales, con el propósito de alcanzar el 
máximo beneficio de la aplicación de la inferencia estadística. En este capítulo se es- 
tudiará la noción de experimentos diseñados estadísticamente y se extenderán algu- 
nos de los métodos del capítulo 9 mediante la introducción de una técnica estadística 
importante conocida como análisis de varianza. 



12.2 Experimentos estadísticos 

Para cualquier fenómeno en el que existe la incertidumbre, el procedimiento apro- 
piado para investigarlo es experimentar con él, de manera que puedan identificarse 
las características de interés. Por ejemplo, supóngase que se desea identificar el com- 
portamiento óptimo de un sistema con respecto a su funcionamiento y costo en dis- 
tintas condiciones; entonces debe pensarse en un experimento como medio para que 
el sistema sea observado bajo las condiciones de interés, de tal manera que su com- 
portamiento pueda conocerse. 

El elemento más importante de un experimento, y que muchas veces se subestima, es 
la formulación del problema por resolver. No puede esperarse una oportunidad 
de éxito razonable sin alguna dirección con respecto al propósito del experimento. 
Una vez que éste se define, es necesario identificar la variable por medir o respuesta 
que se va a estudiar y el factor o factores potenciales que pueden influenciar la va- 
riabilidad de la respuesta. La respuesta también se conoce como variable dependien- 
te; el factor recibe el nombre de variable independiente; se supone que este último se 
encuentra bajo el control del investigador. Por ejemplo, en una tienda el interés re- 
cae en el número de empleados disponible, de manera que el tiempo de espera del 
cliente no sea excesivo. En este caso, la respuesta es el tiempo de espera y el factor el 
número de empleados disponible. 
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Un nivel o tratamiento del factor es un valor o condición de éste bajo el cual se 
observará la respuesta medióle. Por ejemplo, supóngase que se desea observar el 
tiempo de espera cuando la tienda tiene a su servicio dos, cuatro o seis empleados a 
la vez. Si un experimento consiste en varios factores, un tratamiento es una combi- 
nación de los niveles de cada factor; por ejemplo, si se desea estudiar el tiempo de es- 
pera como una función del número de empleados en un determinado momento del 
día, entonces un tratamiento es la combinación de un número particular de emplea- 
dos en un momento dado del día. El proceso por medio del cual se seleccionan los 
tratamientos se encuentra dictado más o menos por las metas del experimento. Para 
experimentos preliminares, en los cuales el propósito primordial es aislar los princi- 
pales factores, el investigador debe escoger mentalmente los tratamientos con una 
visión muy amplia, de manera que obtenga un conocimiento útil del mecanismo bajo 
estudio. En forma posterior, se puede conducir un experimento más preciso con el 
propósito de hacer hallazgos más específicos. 

Una unidad experimental se define como el objeto (persona o cesa) "¡ue es capaz 
de producir una medición de la variable de respuesta después de aplicar un tratamien- 
to dado. La selección de una unidad experimental o del tamaño de ésta descansa, de 
nuevo, enteramente en el experimentador. Por ejemplo, si un fabricante de focos de- 
sea comparar la duración de éstos con la de sus competidores, entonces los focos selec- 
cionados son las unidades experimentales y el número de marcas diferentes los trata- 
mientos. O si se tiene interés en determinar la concentración de un contaminante en 
un lago en función de la ubicación geográfica, entonces las localidades del lago que 
se seleccionan para medir la concentración del contaminante son los tratamientos y 
la pequeña área superficial de cada localidad, la unidad experimental. 

En un ambiente de incertidumbre los experimentos son, en forma general, com- 
parativos en el sentido de que, idealmente, miden y comparan las respuestas de uni- 
dades experimentales esencialmente idénticas, después de que éstas se exponen a los 
tratamientos seleccionados y aplicados por el investigador. Todos los factores exter- 
nos que pueden influenciar la respuesta deben eliminarse o controlarse. Sin embargo, 
no siempre puede garantizarse el control de los factores externos; por ejemplo, en 
forma práctica, casi cualquier experimento que incluye alguna actividad financiera 
guardará alguna interrelación con las condiciones económicas prevalecientes que no 
pueden controlarse. Tal desviación del control experimental ideal necesita de la repe- 
tición del experimento en una muestra de unidades experimentales para determinar 
la variación aleatoria o error experimental. Esta es la variación extraña en la res- 
puesta o la variación que no puede ser atribuible a un cambio de tratamiento. Por lo 
tanto, es posible la inferencia estadística al comparar el error experimental con las 
respuestas promedio que resultan de la aplicación de los diferentes tratamientos. 

En algunas ciencias pueden llevarse a cabo experimentos de laboratorio ideales, 
pero en las ciencias socioeconómicas, las desviaciones de las condiciones experimenta- 
les ideales tienen un lugar común debido a que el medio no permite un control sufi- 
ciente. Por ejemplo, puede ser interesante estudiar el efecto de un aumento en las tasas 
de interés (tramiento) en la actividad de construcción de casas (respuesta) por parte de 
los constructores (unidades experimentales). Los tratamientos no pueden aplicarse a 
las unidades experimentales, ni la respuesta puede medirse de acuerdo con un experi- 
mento planeado. Sólo puede registrarse la información conforme cambian las condi- 
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w 



ciones en el mundo real. Aunque para un purista lo anterior no constituye un experi- 
mento, estos tipos de estudios merecen una considerable atención. Para el análisis de 
estos datos es más apropiado el empleo de los métodos de regresión que los que se es- 
tudiarán en este capítulo. En los capítulos 13 y 14 se examinará el análisis de regresión. 



12.3 Diseños estadísticos 

El proceso por medio del cual se miden las observaciones de la respuesta se centra en 
un diseño estadístico. En general, en los experimentos diseñados estadísticamente, las 
unidades experimentales deben seleccionarse en forma imparcial, así como los trata- 
mientos asignados a éstas, mediante un proceso aleatorio, con el propósito de remo- 
ver los posibles sesgos sistemáticos. Como ya se indicó en el capítulo 9, el proceso 
aleatorio no sólo protege contra el sesgo sistemático, sino también tiende a neutrali- 
zar los efectos de todos aquellos factores externos que no se encuentren bajo el 
control del investigador. Entonces las comparaciones entre los tratamientos se mi- 
den, en forma práctica, como si el efecto en la respuesta se debiera sólo a la diferen- 
cia entre los tratamientos. 

En un experimento diseñado estadísticamente es de igual importancia el concep- 
to de repetición, Como ya se ha notado con anterioridad, el propósito de la repeti- 
ción es medir el error experimental. La magnitud de éste juega un papel muy impor- 
tante en la toma de decisiones con respecto a la posibilidad de que las diferencias 
entre los tratamientos sean discernibles en forma estadística. 

En el diseño de experimentos estadísticos, el interés primario recae en cómo asig- 
nar las unidades experimentales a los tratamientos (o viceversa), para asegurar un 
proceso imparcial. En este contexto surgen dos conceptos básicos: el proceso de 
asignación debe hacerse con base en un diseño completamente aleatorio, o en un di- 
seño en bloque completamente aleatorio. Cualquiera de estos dos diseños puede 
emplearse en experimentos unifactoriales o en aquéllos en los que se desea investigar 
varios factores en forma simultánea. Con un diseño complementario aleatorio, la 
asignación de los tratamientos a cada unidad experimental se lleva a cabo en forma 
totalmente aleatoria y todas las unidades se suponen homogéneas. En forma gene- 
ral, se hace uso de un procedimiento aleatorio sencillo como la generación de núme- 
ros aleatorios para llevar a cabo el proceso de asignación. El uso de un diseño 
completamente aleatorio implica que las condiciones bajo las cuales será observada 
la respuesta (u otras que se encuentren bajo el control del investigador) serán las mis- 
mas a través de todo el experimento. Este tipo de diseño no debe usarse en aquellas 
situaciones en las que las observaciones se realizarán sobre factores potenciales 
como el tiempo, el espacio o efectos demográficos, a menos que éstos sean partes 
legítimas del experimento. 

No obstante, muchas veces el investigador se da cuenta de que el experimento no 
se puede conducir en el mismo ambiente, debido, principalmente, a que no todas las 
unidades experimentales son homogéneas; por lo tanto, éstas se clasifican en bloques 
homogéneos y se asignan todos los tratamientos en forma aleatoria a las unidades de 
cada bloque, con lo que se crea lo que se conoce como un diseño en bloques completamen- 
te aleatorio. La palabra "completamente" indica que cada bloque contiene todos los 
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tratamientos, mientras que la palabra "aleatorio" significa que todos los tratamientos 
serán asignados, en forma aleatoria, a las unidades experimentales de cada bloque. 

El investigador reconoce la necesidad de agrupar en bloques, mediante la identifi- 
cación de los elementos potenciales de las unidades experimentales que no se han 
incluido en la definición de un tratamiento, pero que pueden causar una variación 
significativa en la respuesta. Muchas veces éstos guardan relación con efectos espa- 
ciales, temporales o demográficos. Por ejemplo, si las unidades experimentales son 
seres humanos, entonces el agrupamiento por bloques deberá hacerse tomando en 
cuenta sexo, edad, condiciones de salud, experiencia, etc., como lo dicta el experi- 
mento. Si éste se va a realizar en un lapso grande deberá considerarse como una 
variable para el agrupamiento por bloques. Si los datos experimentales se van a reco- 
lectar, ya sea en distintas localidades o en grupos, entonces éstos deberán conside- 
rarse como variables en bloque. Si se van a usar varios instrumentos para registrar 
los datos, se deberá considerar un agrupamiento de instrumentos por bloques, aun si 
éstos son del mismo modelo y con mayor razón si provienen de distintos fabricantes. 

Por lo tanto, la necesidad de agrupar en bloques es evidente; entre más heterogé- 
neas son las unidades experimentales, mayor es el error experimental y menor la 
oportunidad de detectar diferencias reales entre los diversos tratamientos. La razón 
de agrupar en bloques es tomar en cuenta, y de esta forma remover, la fuente de va- 
riación en la respuesta que no es de interés, con lo que se incrementa la sensitividad 
para detectar diferencias entre los tratamientos. Así, el principio general de un dise- 
ño estadístico radica en minimizar el error experimental mediante el control de las 
variaciones extrañas, de manera que pueda detectarse la variación sistemática en la 
respuesta. 



12.4 Análisis de experimentos unifactoriales en un diseño 
completamente aleatorio 

El tipo de experimento más sencillo es aquél que compara el efecto de k 3= 2 niveles de 
un solo factor sobre alguna variable de respuesta. Los niveles del factor son los tra- 
tamientos, y si éstos se aplican en forma aleatoria a un conjunto virtualmente homo- 
géneo de unidades experimentales, el experimento tiene un diseño completamente 
aleatorio. Esta situación es una extensión natural del problema que surge cuando se 
comparan dos medias poblacionales en donde las variantes son desconocidas pero 
que se suponen iguales. La prueba / para dos muestras, la cual se estudió en el capí- 
tulo 9, se basa en un diseño completamente aleatorio. 
Para k ^ 2 niveles, se desea probar la hipótesis nula 

H»- Mi = M: = '" = M* (12.1) 

contra la alternativa de que algunas de las medias de la población no son las mismas. 
Si es posible rechazar la hipótesis nula con base en k muestras independientes, en- 
tonces las medias de las k poblaciones no son todas iguales entre sí, o el efecto de los 
tratamientos sobre la respuesta es estadísticamente discernible. Si no puede recha- 
zarse la hipótesis nula, cualquier desviación observada en la respuesta se debe sólo al 
error aleatorio y no a causa de un cambio en el tratamiento. 
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Se pueden manejar muchos problemas prácticos con un experimento unifactorial 
completamente aleatorio. Unos cuantos ejemplos son los siguientes: saber si tienen 
algún efecto sobre el consumo de energía ligeras diferencias en el aislamiento de los 
techos de las casas; si la media del llenado producido por máquinas en un proceso de 
llenado es la misma, o si los vendedores que reciben diferentes métodos de entrena- 
miento, incrementan su volumen de ventas en forma diferente. En estos casos, los 
tratamientos son el aislamiento de los techos, las diferentes máquinas y los diversos 
métodos de entrenamiento; las unidades experimentales son las causas selecciona- 
das, los recipientes llenos y los vendedores, respectivamente. En el primer caso los 
tratamientos son cuantitativos, ya que los distingue una escala bien definida (R). En 
los últimos dos casos los tratamientos son cualitativos, dado que representan cosas o 
sujetos diferentes y por lo tanto carecen de escalas numéricas. 

La necesidad de tener unidades experimentales homogéneas esencialmente puede 
ilustrarse con el primer ejemplo. Si se seleccionan casas para el experimento que no I 

sean del mismo tamaño, en ese ca^o n^ se tiene el mismo aislamiento en los techos y \ 

se tienen dist ; ntas calidades con respecto al clima, si éstas se localizan en distintas zo- i 

ñas geográficas; de esta forma las diferencias en el consumo de energía no se pueden 
atribuir sólo al aislamiento del techo. Así, para un diseño completamente aleatorio los 
resultados serán ambiguos, a menos que las unidades experimentales sean virtual- i ¡ 

mente homogéneas. 

La técnica del análisis de varianza proporciona el procedimiento inferencial para 
probar la hipótesis nula dada por (12.1). Para desarrollar esta técnica, se analizará 
el problema del aislamiento. Supóngase que se tiene interés en k diferentes niveles 
de aislamiento en el techo, tales que para el y'-ésimo nivel se observará el consumo de 
energía mensual del sistema de calentamiento en n } casas diferentes pero muy simila- 
res. Las casas que se seleccionan para este experimento son homogéneas y los factores 
externos están controlados dentro de ciertos límites prácticos. La información de la 
muestra puede colocarse como se presenta en la tabla 12.1, donde la respuesta medible 
es el número de kilowats-hora mensuales utilizados por el sistema de calentamiento 
de cada casa. 



TABLA 12.1 Arreglo común de los datos de la muestra de un experimento con sólo un factor 
completamente aleatorizado 

Tratamientos 

1 2 ••■ j ••• k 

Y\i Y¡ 2 "" Y\j "' ^u 

f 3 . Yr, ■■■ Y v ••• Y lk 



Ya 



lis 



Y„a 
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Se supone que cada nivel de aislamiento térmico en los techos representa una 
población a partir de la cual se obtiene una muestra; también, que las distribuciones 
de las poblaciones para cada nivel de aislamiento son normales con varianzas 
iguales. De acuerdo con lo anterior, las columnas de la tabla 12.1 representan k 
muestras aleatorias independientes de tamaños n¡ , j = 1,2,..., k. Si la hipótesis nula 
dada por (12.1) es cierta, la observación Y t¡ es el uso promedio de energía de los siste- 
mas de calentamiento para todos los k niveles de aislamiento térmico y cualquier 
desviación del promedio se debe a un error aleatorio. Si H Q es falsa, entonces Y¡j está 
constituida por todos los promedios, más el efecto dely-ésimo tratamiento y el error 
aleatorio. El promedio matemático para un experimento unifactorial completa- 
mente aleatorio es 

Y u = fx + Tj + e¡j j = 1, 2 k, (i2.2) 

' = 1, 2 n¡, 

en donde Y {j es la /-ésima observación dely-ésimo tratamiento, /t es la media sobre to- 
das las k poblaciones, t, es el efecto sobre la respuesta debido al y'-ésimo tratamiento, y 
£,/ es el error experimental para la /-ésima observación bajo ely'-ésimo tratamiento. 
Se supone que los errores son independientes y que se encuentran normalmente 
distribuidos con medias cero y varianzas iguales. En otras palabras, e, v ~ M0, a 2 ) 
para toda /' yj. La suposición sobre los t/ depende de cómo considere el investigador 
los niveles del factor. Si el investigador está interesado en lo que le pasa a la respues- 
ta, sólo para ciertos niveles del factor que se seleccionan de antemano, entonces 
T|, t 2 , ..., r k se consideran como parámetros fijos tales, que 

I n/rj = 0. 
■/'=' 

Por lo tanto, el modelo dado por (12.2) se conoce como modelo de efectos fijos y las 
inferencias estadísticas con respecto a los efectos de los tratamientos pertenecen, en 
forma exclusiva, a los niveles seleccionados. 

Por otro lado, si los niveles empleados en el experimento se seleccionaron al 
azar, de una población de posibles niveles, entonces t¡, t 2 , ..., r k son variables 
aleatorias independientes que t, ~ N(0, a 2 T ) para toda y. En este caso, el modelo 
dado por (12.2) se conoce como modelo de efectos aleatorios, y las inferencias 
estadísticas con respecto a los niveles de un factor pertenecen a la población de niveles. 

En general, para factores cuantitativos es deseable escoger niveles fijos del inter- 
valo de interés, debido a que no es probable que una selección aleatoria proporcione 
una amplia cobertura de éste. La interpolación de los niveles fijos previamente selec- 
cionados también es una práctica muy segura para factores cuantitativos. Cuando 
los factores son cualitativos como seres humanos, localidades o grupos, su selección 
sólo es importante cuando puede revelar algo con respecto a la variabilidad de la 
población. 



*En lugar de emplear una letra mayúscula para las variables aleatorias e -, se seguirá la tradición de utili- 
zar la letra griega minúscula épsilon. 



:! fc 
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Para un modelo de efectos fijos, una hipótesis nula equivalente a (12.2) es 

H : jj = 0, paratodaj. (12.3) 

La hipótesis nula (12.3) establece que no existe ningún efecto de los tratamientos 
sobre la respuesta, lo que a su vez implica que las k medias de la población son 
iguales entre sí. Entonces se tiene como resultado que cada observación consiste en 
una media común y cualquier desviación con respecto a ésta se debe a la variación 
inherente dentro de cada población. 

Para un modelo de efectos aleatorios, la hipótesis nula consiste en la proposición 
de que la varianza entre los r, (o los efectos del tratamiento) es cero; es decir, 

H : a 2 T = 0. (12.4) 

Así, al suponer independencia entre los errores y tratamientos aleatorios, 

Va/-(y„.) = cr 2 + cr?. 

Para el modelo de efectos aleatorios, el interés recae en hacer una evaluación de 
cuánto de la varianza en las observaciones se debe a diferencias reales en las medias 
de los tratamientos y cuánto se debe a errores aleatorios con respecto a estas medias. 
En este capituló el principal interés se centra en el modelo de efectos fijos, pero 
se incluirá el caso de efectos aleatorios cuando sea necesario. El punto de vista 
empleado para desarrollar la técnica del análisis de varianza será, en gran parte, in- 
tuitivo. Para un tratamiento teórico de la materia, véase [6]. 

12.4.1 Análisis de varianza para un modelo de efectos fijos 

Sean /u., , ¡i 2 , . . . , fx k las medias de las k poblaciones, y sea ¿i la media de todas las 
poblaciones. Se define el efecto r, dely'-ésimo tratamiento como la desviación de la 
y'-ésima población media m> respecto a la media global m- De esta forma, 

T J = M; ~ M» j = I» 2 » •■••*• 

En el mismo sentido, el error aleatorio correspondiente e u de la observación l^es la 
desviación de Y tj con respecto de la y'-ésima media Mj o 

Eu = Y¡j - M;, j = 1.2, ...,k, 
i = 1,2, ..., iíj. 

De acuerdo con lo anterior, el modelo dado por (12.2) puede escribirse de la siguien- 
te manera 

y,j = /i + Uij- fi) + (Y,j - fij), 

o 

Y iJ - ix = ( M ,. - ijl) + (Y u - pj). 02-5) 
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La igualdad dada por (12.5) establece, en forma explícita, que cualquier des- 
viación de una observación con respecto a la media global se debe a dos posibles 
causas: a la diferencia en el tratamiento o a un error aleatorio. Si se rechaza la hipó- 
tesis nula dada por (12.3), los datos de la muestra deben demostrar que la desviación 
total que se debe a la diferencia en el tratamiento es, suficientemente, más grande 
que la desviación causada por el error aleatorio. De esta forma, la técnica del análi- 
sis de varianza es en realidad un análisis de la variación de las medias y éste se logra 
mediante la participación de la variación total en las observaciones en componentes 
especificados por el modelo matemático. Esto permite determinar una estadística 
apropiada de tal manera que pueda tomarse una decisión con respecto a la hipótesis 
H : Tj = 

Los parámetros Mi , M2 > • • • , M* y M no son conocidos, pero pueden estimarse con 
base en las observaciones de las k muestras aleatorias. Para la información de la 
muestra dada en la tabla 12. 1 se define lo siguiente: 



Tj = 1 Y u , 

1=1 


j= 1,2,. 


..,*, 


Y.j = T.j/nj, 


j= 1,2,. 


.,*, 


k 

T.. = 2 T.j, 

7=1 






" = 1 «y. 

7=1 






Y. = T../N. 







De nuevo, se emplea la notación de punto para indicar que la suma se lleva a cabo 
sobre el correspondiente subíndice. En particular, T.¡ es la suma de las itj observa- 
ciones en eiy-ésimo tratamiento, Y.¡ es la media de la muestra deiy-ésimo tratamien- 
to, T es la suma de todas las TV observaciones y K. es la media de la muestra de to- 
das las observaciones. 

Al sustituir las estadísticas Y. } y Y en (12.5) para los parámetros \x.¡ y /x, respec- 
tivamente, se obtiene la correspondiente igualdad en la muestra 

Y u - Y = (Y.j - Y) + Wj - Y.j). (12.6) 

La esencia de la identidad de la muestra (12.6) es la división de la desviación de una ob- 
servación Y¡j del promedio de la muestra total Y en dos componentes la desviación 
de la media de la muestra del tratamiento Y.j de Y , y la desviación de Y u de su pro- 
pia media de tratamiento Y.j. De acuerdo con lo anterior, puede argumentarse en 
forma lógica que entre mayor sea la desviación entre Y.j y Y ... se tiene más inclina- 
ción a rechazar la hipótesis nula dada por (12.3). 

Para determinar una estadística de prueba apropiada, supóngase que se toma 
el cuadrado de ambos miembros de (12.6) y se suman sobre todos los iyj. De esta 



I 



J| 



12.4 Análisis de experimentos unifactoriales en un diseño completamente aleatorio 409 



forma, 



Pero 



2 2 (Y u - T..) 2 = 22 (7, - 7.) 2 + H(Y U - 7,) 2 

y-í í=i y=i i- 1 y=i /=i 

k tij 
+ 2 2 S (7; "?..)( ^ -7,). 

y= i /= i 



2 2 (7; - Y..)(Y U - Y,) = 2 (7, - 7) 
;=i í=i j=\ 

k 

= 2 (7, - 7.) 

y= i 

= 0, 

dado que Efi, Y¡¡ = T.¡ = n-Y.j. 

Como resultado se tiene que la ecuación 



2 (Yu - Y,) 

í= i 

lYu-njY.j 



(12.7) 



2 2 (y, - Y.f =22 (7, - y? + 22 (Y, - 7,) 2 



y= i í= i 



y=i í=i 



(12.8) 



establece que la suma total de los cuadrados de las desviaciones con respecto a la media 
global sé descompone en la suma de los cuadrados de las desviaciones de las me- 
dias de los tratamientos en relación con la media global, y la suma de los cuadrados 
de las desviaciones de las observaciones con respecto a sus propias medias de trata- 
miento. La expresión (12.8) se conoce como la ecuación fundamental del análisis de 
varianza. El término en el lado izquierdo de (12.8) es la suma total de cuadrados y se 
denota por STC. El término en medio de (12.8) es la suma de los cuadrados de los 
tratamientos y se denota por SCTR. El último término es la suma de los cuadrados 
de los errores, denotada por SCE. Por lo tanto, 



STC = SCTR + SCE 



(12.9) 



SCE mide la cantidad de variación en las observaciones debida a un error alea- 
torio. Si todas las observaciones que se encuentran dentro de un mismo tratamiento 
son las mismas, y si este hecho es cierto para todos los k tratamientos, entonces SCE 
= 0. De acuerdo con lo anterior, entre más grande es SCE, mayor es la variación en 
las observaciones que puede atribuirse a un error aleatorio. SCTR mide la extensión 
de la variación, en las observaciones, que se debe a las diferencias entre los tratamien- 
tos. Si todas las medias de los tratamientos son iguales entre sí, entonces SCTR = 0. 
De esta forma, entre más grande es el valor de SCTR, mayor es la diferencia que 
existe entre las medias de los tratamientos y la media global. 

Puede demostrarse que bajo la hipótesis nula //„: r, = y la suposición de que 
e,, ~ jV(0, o- 2 ),SCTR/o- : y SCE/o- : son dos variables aleatorias independientes con 
una distribución chi-cuadrada. Los grados de libertad se obtienen al separar la suma 
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'total de cuadros. STC tiene N- 1 grados de libertad debido a que se pierde un grado 
de libertad al ser necesario que la suma de las desviaciones ( Y¡¡ - Y.) para toda k yj 
sea cero. La suma de los cuadrados de los tratamientos tiene k - 1 grados de libertad 
debido a que se impone la restricción^, rtj(Y.j - Y.) = para las k desviaciones 
(Y.j - Y). Esta restricción surge del hecho de que EJL, ixjT } = 0. Entonces, con 
base en (12.9), el número de grados de libertad para SCE será igual a la diferencia 
entre el número de grados de libertad para STC y SCTR, 

gí(SCE) = gl(STC) - gl(SCTR) 
= N - 1 - (* - 1) 
= N - k. 

Una suma de cuadrados dividido entre sus grados de libertad da origen a lo que se 
conoce como cuadrado medio. De acuerdo con lo anterior, el cuadrado medio del 
tratamiento es 

CMTR = SCTR/(A - 1), 
y el cuadrado medio del error es 

CME = SCE/(7V - k). 

Ahora se puede argumentar que, dado que SCTR/cr 2 y SCE/cr 2 son dos va- 
riables aleatorias independientes chi-cuadrada con k - 1 y N - k grados de libertad, 
respectivamente, entonces el cociente de las medias cuadráticas de la sección 7.8 
tiene una distribución F con k -ly N -fgrados de libertad. Este cociente es la 
estadística apropiada para probar la hipótesis nula 

H : Tj = 0. 

Lo anterior puede verificarse al examinar los valores esperados de los cuadrados 
medios. Puede demostrarse que 

E(CME) = cr 2 



¿■(CMTR) = cr 2 + J f J — - , 

k — 1 

en donde a 2 es la varianza común de los errores. Como resultado se tiene que el 
cuadrado medio del error es un estimador no sesgado de cr 2 sin importar si la hipóte- 
sis nula es cierta. Por otro lado, si H es cierta, t, = para toda y, y 2« 7 t 2 = 
Entonces £(CMTR) = cr 2 ; es decir, bajo H v tanto CME como CMTR son estima- 
dores no sesgados de la varianza del error. Pero si la hipótesis nula no es de cierta, 
CMTR tiende generalmente a ser mayor que CME, dado que el término S^t; será 
positivo. En otras palabras, entre más grande sea la diferencia entre las medias de 
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los tratamientos y la media global, mayor será CMTR. Pero una ocurrencia de este 
tipo sugiere que las medias de los k tratamientos no son todas iguales entre sí y de 
esta forma debe rechazarse la hipótesis nula. De acuerdo con lo anterior, la hipótesis 
nula será rechazada cuando el valor del cociente. 

k nj 

m(Y,-\) 2 /(k- l) 



k nj 

2 2 Wu - Yj) 2 /W - k) 

J= 1 1= 1 



(12.10) 



se encuentre dentro de una región crítica superior de tamaño a. 

El análisis anterior constituye la técnica del análisis de varianza para un experi- 
mento con sólo un factor completamente aleatorizado. Las fuentes de variación, 
grados de libertad, sumas de cuadrados, cuadrados medios, y el cociente /"juntos, 
constituyen lo que se conoce como tabla de análisis de varianza (ANOVA) que se 
presenta en la tabla 12.2. 

Dadas las verificaciones y¡j,j= 1, 2, ..., k, i = 1, 2, ..., n¡, el cálculo de las 
cantidades que aparecen en la tabla 12.2 puede hacerse en forma fácil mediante el 
empleo de cualquier paquete estadístico estándar para computadora. Para llevar a 
cabo el cálculo a mano, las sumas de los cuadrados pueden calcularse mediante el 
empleo de fórmulas algebraicamente equivalentes, pero desde un punto de vista de 
computación, más convenientes 

tí nj k nj t"?- 

sTc=2.2(^-y..) 2 =2 2^-^ 

y= i i= i j= i í= i ' v 

sctr = £ 2 (y, - y.) 2 = 2 f - £. 

SCE = STC - SCTR 

Debe notarse que la hipótesis nula H : /a, = /¿ 2 para el caso de dos muestras 
también puede manejarse con el método del análisis de varianza. En el capitulo 13 se 
mostrará la relación que existe entre las estadísticas Fy t de Student para k = 2. 



TABLA 12.2 Tabla de análisis de varianza para un experimento con sólo un factor comple- 
tamente aleatorio 

Fuente de 

variación gl SC CM Estadística F 

Tratamientos k - 1 12(Yj - Y f SS("P 7 - Y..f/(k - 1) SS(K ; - Y.f/(k - 1) 

Error N - k ^{Y„ - Y ,f 1Z(Y„ - Y,f/(N - k) ZXY U - Y-,f/(N - k) 

Total N - I 22(K„ - Y.) 2 



412 Diseño y análisis de experimentos estadísticos 

TABLA 12.3 Calor empleado para cinco niveles de aislamiento 

Espesor del aislamiento del techo (pulgadas) 
4 6 8 10 12 

14.4 
14.8 
15.2 
14.3 
14.6 



•? 



14.5 


13.8 


13.0 


13.1 


14.1 


14.1 


13.4 


12.8 


14.6 


13.7 


13.2 


12.9 


14.2 


13.6 




13.2 




14.0 




13.3 
12.7 



Ejemplo 12.1 Los datos que figuran en la tabla 12.3 son los resultados de un dise- 
ño completamente aleatorízado para el cual la r_sp v.ssta son los kilowats hora, 
empleados por los sistemas de calentamiento (en cientos de kilowats hora) para casas 
muy similares en un mes dado, como función de cinco niveles de aislamiento térmico 
(en pulgadas). Con base en esta información, ¿existe alguna razón para creer que 
por lo menos algunos de los consumos de energía promedio para los cinco niveles de 
aislamiento son diferentes? Supóngase un error de tipo I con a igual a 0.01. 

Se desea probar la hipótesis nula de que 

H : /i, = /i, 2 = fíj = f¿ 4 = f¿ 5 = f¿, 
o en forma equivalente 

H :tj = 0, j = 1,2, ...,5. 

Los tamaños de las muestras son /i, = 5, n 2 = 4, /i 3 = 5, n 4 = 3, y n 5 = 6; así 
que /V = 5 + 4+-+6 = 23. Las sumas de los tratamientos son T., = 73.3, 
T 2 = 57.4, r. 3 =- 69.2, T 4 = 39.6, y T 5 = 78. La suma total es T = 73.3 + 
57.4 + ••• + 78 = 317.5. Las sumas de los cuadrados son las siguientes: 

STC = 14.4 2 + 14.8 2 + ••• + 12.7 2 - ^-^- = 11.05, 

23 

SCTR = Z^ + ^ + ^ + 39^ + ^_^: = 9 . 836 , 
SCE = 11.05 - 9.836 = 1.214. 

La información se ha agrupado en una tabla de análisis de varianza que se 
muestra en la tabla 12.4. Dado que/ = 36.48 > f ^ 4 l8 = 4.58 se rechaza la hi- 
pótesis nula de que no existe ningún efecto debido a los tratamientos. En relación 
con lo anterior, existe una razón para creer que parte de los consumos promedio de 
energía son diferentes para los cinco niveles de aislamiento. 



12.4 Análisis de experimentos unifactoriales en un diseño completamente aleatorio 413 
TABLA 12.4 Tabla ANO VA para el ejemplo 12.1 



Fuente de 
variación 


gl 


SC 


CM Valor F 


Tratamientos 
Enor 


4 
18 


9.836 
1.214 


2.459 36.48 
0.0674 


Total 


22 


11.05 


/0-99. 4. 18 = 4.58 



12.4.2 Método de Scheffé para comparaciones múltiples 

Recuérdese que la hipótesis alternativa en el análisis de varianza no especifica qué 
medias son diferentes; lo que establece es que por lo menos una es diferente a las 
otras, así que el rechazo de la hipótesis nula con base en la estadística F no puede 
emplearse como fundamento para aceptar una alternativa en particular. Por 
ejemplo, supóngase que se rechaza la hipótesis nula H : ¿i, = ¿i 2 = M3 ; lo ante- 
rior significa que ¿¿3 es diferente, pero que \i y ¡i 2 son las mismas. O puede expresar 
que las tres medias son diferentes entre sí, o cualquier otra combinación posible de 
estos resultados. Por lo tanto, ésta es una razón muy fuerte para que el investigador 
necesite un análisis más completo para explorar las diferencias estadísticamente dis- 
cernibles entre cierto número de medias de población. 

Con este propósito se han propuesto varios métodos; entre éstos se encuentran el 
procedimiento de rangos estudentizados de Tukey, la prueba de rangos múltiples de 
Duncan y el métodos de Scheffé (véase [5]). Sólo se analizará el método de Scheffé 
para comparaciones múltiples debido a que tiene, en forma relativa, pocas restric- 
ciones y es preferido por muchos cuando se comparan combinaciones de las medias 
de los tratamientos. El método de Scheffé radica en la formulación de un contraste 
que es una comparación que escoge el investigador para representar una combina- 
ción lineal de cualquier número de medias de población. Un contraste es un método 
general de comparación que permite al investigador determinar, con base en la evi- 
dencia de la muestra, si el contraste dado es estadísticamente discernible. 

Se define un contraste, denotado por L, como 

k 

L = ^cjnj, (12.11) 

j= i 

en donde M, es la media del y'-ésimo nivel, y las c/s son constantes tales que 
Z* = | Cj = 0. Por ejemplo, L - /¿, - ¡jl 4 es un contraste con c, = lyc ; = -1. 
Este contraste es una comparación entre m, y /x 4 . Otro contraste es L = 3/x, - ¿a? 
- P-.i - /x 4 , con c, = 3, c 2 = c 3 = c 4 = - 1 . Este contraste es una comparación 
entre /¿, y fi 2 , /¿ 3 , y í¿ 4 - De esta forma el método de Scheffé permite que el investi- 
gador escoja tas comparaciones basadas en las características de interés. 
Un estimador no sesgado de L está dado por 

1-ícjY.j, (12-*2) 

J'=! 
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cuya varianza se estima mediante 

* c 2 
í 2 (L) = CME 2 -• (12.13) 

j-i tt J 

Scheffé demostró (véase [7]) que todos los posibles contrastes definidos por 
(12.11) se encuentran incluidos, con una probabilidad de 1 - a, en el conjunto de 
intervalos 

L - As(L)^L^L + As(L), (12.14) 

en donde 



y L y s 2 (L) se definen mediante (12.12) y (12.13), respectivamente. Si para algún 
contraste L se obtiene un intervalo a partir de (12. 14) que no incluye al cero, enton- 
ces el contraste es estadísticamente discernible. Por lo tanto, en realidad para cada 
contraste L se está probando la hipótesis nula 

H o :L = 0. 

La esencia del conjunto de intervalos definidos por (12. 14) es que para todos los 
intervalos el nivel de confianza es de 100(1 — a). Si se va a repetir un experimento 
muchas veces, y para cada una se calculan los invervalos de confianza para todos los 
posibles contrastes mediante el empleo de (12.14), entonces en un 100(1 - a) de las 
repeticiones, todos los intervalos de confianza serán correctos. Que el intervalo de 
confianza sea del 100(1 — a) para todos los intervalos, es mejor a obtener un inter- 
valo de confianza del 100(1 - a) para cada par de medias de tratamientos, en cuyo 
caso el nivel de confianza sólo es para cada par individual y no para el conjunto en- 
tero de éstos. 

Ejemplo 12.2 En el ejemplo 12.1, compárese ¿i 4 contra fi 5 ; fx 2 , /"-3> y M* contra 
fj-s', Mi contra /jl 2 1 y /¿3 y /14 contra fx 5 , empleando el método de Scheffé con 
a = 0.01. 

Aunque pueden efectuarse comparaciones entre diversas combinaciones de los 
tratamientos, ciertas comparaciones parecen razonables si el objetivo es el orde- 
nar los tratamientos en subgrupos dentro de los cuales no aparezca ninguna diferen- 
cia apreciable. Por ejemplo, si no existe una diferencia discernible entre el empleo de 
energía promedio para aislamientos térmicos de 10 y 12 pulgadas, puede ser, desde 
un punto de vista económico, más razonable utilizar un aislamiento de 10 pulgadas 
que uno de 12. Los contrastes para las cuatro comparaciones son: 

L 1 = (1 A - ¿l, . L 2 = fJL 2 + M3 + M4 ~ 3/¿ 5 , 

L, = (i t - (i 2 , L A = 2/u, - i¿ } - (i 4 . 
Se ilustrará el cálculo del intervalo de confianza para L 2 . Dado que y 2 = 14.35 . 
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y. 3 = 13.84, y. 4 = 13.2, y y., = 13, 

L 2 = 14.35 + 13.84 + 13.2 - (3)(13) = 2.39. 



La varianza estimada es 

s 2 (L 2 ) = 0.0674 

y 

s(L 2 ) = 0.3923. 



I 2 l 2 l- 2 (-3) 2 



= 0.1539, 



Dado que / 099 , 4- 18 = 4.58, A = \/{A)(4.5S) = 4.28, el intervalo de confianza 
para L 2 es 

2.39 ± (4.28)(0.3923) = (0.7109, 4.0691). 

Al seguir el mismo procedimiento se obtiene que los intervalos de confianza para los 
otros contrastes son 



L 4 



(- 0.5857,0.9857), 
(-0.4354, 1.0554), 
(- 2.2572,0.1772). 



Nótese que de los cuatro intervalos de confianza para los contrastes de interés sólo 
ei de L 2 no incluye el valor cero. Dado que la inclusión de este valor en estos interva- 
los de confianza es equivalente a la falta de significancia estadística en una prueba 
bilateral con respecto a la diferencia entre las medias, una comparación de los cuatro 
intervalos revela que no existe ninguna diferencia apreciable en el consumo de 
energía promedio para un grosor del aislamiento térmico de 8, 10 o 12 pulgadas. Se 
llega a esta conclusión debido a que los contrastes L, y L 4 no son estadísticamente 
discernibles, pero L 2 sí lo es. Dado que L 2 es igual que L 4 excepto que éste contiene a 
fj-2 (6 pulgadas de aislamiento), con base en los resultados de este experimento puede 
considerarse a un aislamiento de 8 pulgadas de espesor, como óptimo, desde un pun- 
to de vista económico. 

Debe notarse que si se rechaza la hipótesis nula de medias iguales mediante el 
empleo de la estadística F, entonces el método de Scheffé dará por lo menos un 
contraste que es estadísticamente significativo. 



12.4.3 Análisis de residuos y efectos de la violación de las suposiciones 

De la sección 9.6.3. recuérdese que, para muestras de diferente tamaño, el efecto de 
violar la suposición de varianzas iguales cuando se comparan dos medias puede ser 
sustancial. Dado que esta misma suposición se formula cuando se comparan k me- 
dias, se desean examinar las formas en que lo anterior puede detectarse y analizar los 
efectos sobre la inferencia cuando no violan las suposiciones. 
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Una forma sencilla y útil para detectar la discrepancia con el modelo propuesto 
se basa en un análisis de residuos. Un residuo es un estimador del error aleatorio e, 7 . 
Dado que 

% = Y u - My> 
el residuo correspondiente denotado por e¡j, se define como 

e¡j = y¡j - y.j, j = 1,2, ..., k, i = 1, 2, ..., nj. 

Los residuos no son estimados en el sentido de estimación de parámetros, sino 
como estimadores de los valores de las variables aleatorias no observables e¡j con 
base en los estimadores y. y para los k medias de población. 

Si es válida la suposición de que los errores aleatorios tienen las mismas varian- 
zas para todos los niveles de k, entonces una gráfica de los residuos de cada trata- 
miento no revelará ninguna diferencia apreciable en la dispersión de los residuos alre- 
dedor del cero. Si esta dispersión es notablemente diferente para algunos tratamien- 
tos, entonces es posible que las varianzas no sean iguales para todos los tratamien- 
tos. Para normalizar la escala de ma gnitudes de los residuos es preferible emplear los 
residuos estandarizados eij/y/CME. Entonces, dado que por hipótesis los errores 
aleatorios se encuentran normalmente distribuidos, un residuo estandarizado rara 
vez se encontrará más allá de un intervalo de ± 3 

Se ilustrará el aná lisis d e residuos empleando los datos del ejemplo 12.1. Dado 
que y. t = 14.66 y VCME = 0.25%, los residuos para el primer tratamiento son 
14.4 - 14.66 = -0.26, 14.8 - 14.66 = 0.14, 15.2 - 14.66 = 0.54, 14.3 - 
14.66 = -0.36, y 14.6. - 14.66 = -0.06, y los residuos correspondientes estandari- 
zados son -1.00, 0.54, 2.08, -1.39 y -0.23. Al seguir este procedimiento se obtienen 
todos los residuos estandarizados que aparecen en la tabla 12.5. 

La figura 12.1 ilustra los residuos estandarizados para cada tratamiento. Se ob- 
serva que no existe ninguna diferencia notable en la dispersión para cada uno de los 
cinco tratamientos excepto para uno de los residuos del primer tratamiento. De 
acuerdo con lo anterior, parece que la hipótesis de que las varianzas de los cinco tra- 
tamientos son las mismas, es razonable en este caso. También se encuentran dispo- 
nibles en la literatura estadística procedimientos formales para verificar la hipótesis 
de igualdad entre las k varianzas. Dos de los usados con más frecuencia son la 
prueba de Bartlett y la prueba de Hartley. Se invita al lector a que consulte [5] para 
conocer los detalles. 

TABLA 12.5 Residuos estandarizados para el ejemplo 12.1 



4 


6 


8 


10 


12 


-1.00 


0.58 


-0.15 


-0.77 


0.39 


0.54 


-0.96 


1.00 


0.77 


-0.77 


2.08 


0.96 


-0.54 





-0.39 


-1.39 


-0.58 


-0.92 




0.77 


-0.23 




0.62 




1.16 
-1.16 
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FIGURA 12.1 Gráfica de los residuos estandarizados para los cinco tratamientos del ejemplo 12.1 



I 



Como se examinó en el capítulo 9, el efecto sobre las inferencias con respecto a 
las medias, cuando los errores aleatorios no se encuentran normalmente distri- 
buidos, es menor mientras el alejamiento de la normalidad no sea muy severo. De es- 
ta forma, la estadística Fen el análisis de varianza es robusta con respecto a los ale- 
jamientos de la hipótesis de normalidad. Si las varianzas de todos los tratamientos 
no son iguales entre sí, puede aumentarse el tamaño de la región crítica de la 
estadística F para el caso de efectos fijos; pero, como se analizó en el capítulo 9, 
este efecto puede minimizarse mediante el empleo de muestras de igual tamaño para 
cada tratamiento. En otras palabras, en el análisis de varianza, la estadística F tam- 
bién es más robusta ante varianzas desiguales siempre y cuando los tamaños de la 
muestra de los tratamientos sean iguales. Desafortunadamente este resultado no se 
extiende al caso de efectos aleatorios en el que la violación de la hipótesis de varian- 
zas iguales generalmente tendrá efectos considerables sobre las inferencias aun para 
muestras del mismo tamaño. 

La hipótesis 1 crucial en el desarrollo del análisis de varianza es que los errores 
aleatorios son independientes. Si los errores son interdependientes, el tamaño real de 
la región crítica puede ser, en forma substancial, más grande (cinco o más veces) que 
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el tamaño dictado al seleccionar la probabilidad del error de tipo I. Se invita al lec- 
tor a que consulte [3], para una revisión de las consecuencias que surgen al violar las 
suposiciones en el análisis de varianza. 



12.4.4 El caso de efectos aleatorios 

Para introducir el caso de efectos aleatorios se utilizará el siguiente análisis breve. Para 
una presentación más completa se sugiere consultar [6]. Para el modelo de efectos 
aleatorios se formuló la suposición de que los niveles empleados en el experimento 
fueron seleccionados en forma aleatoria de una población de posibles niveles. Ade- 
más se supondrá que t,- ~ N(0,a 2 T ), en donde a 2 T es la varianza de los tratamientos 
aleatorios t,. La descomposición de la suma total de cuadrados y el análisis de va- 
rianza es igual a la del caso de efectos fijos para un experimento con sólo un factor, 
pero en este caso el valor esperado del cuadrado medio de tratamiento *s diferente. 
Dadas muestras de igual tamaño n para todos lo c niveles, se puede demostrar que 

£(CME) = a 2 , 

y (12.15) 

£(CMTR)= a 2 + nal. 

La región apropiada de rechazo sigue siendo la misma ya que un valor grande 
del cociente entre CMTR y CME sugiere que debe rechazarse la hipótesis nula 
//„: a 2 r = 

Ejemplo 12.3 Una planta de enlatado emplea un número muy grande de máquinas 
para su proceso de llenado. Se da por hecho que cada máquina vacía un peso especi- 
ficado del producto en cada lata. El gerente de la planta sospecha que existe una 
gran variación en la cantidad del producto que se vacía entre las distintas máquinas. 
Para verificar su sospecha, escoge al azar cuatro máquinas y pesa el contenido de 
cinco latas, seleccionadas en forma aleatoria, llenadas por cada una de las cuatro 
máquinas. Los resultados se muestran en la tabla 12.6. ¿Qué proporción de la va- 
rianza en los pesos puede atribuirse a las diferencias que existen entre las máquinas? 
Primero se llevará a cabo un análisis de varianza para saber si puede rechazarse 
H n : al = 0. Los totales de las máquinas son T , = 6.14, T 2 = 6.03, T.-¡ = 5.99 y 



TABLA 12.6 Contenido en peso para un proceso de llenado 







Máquina 






/ 


2 




3 


4 


1.24 


1.20 




1.19 


1.18 


1.22 


1.20 




1.20 


1.18 


1.22 


1.21 




1.19 


1.19 


1.23 


1.22 




1.20 


1.18 


1.23 


1.20 




1.21 


1.20 
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TABLA 12.7 Tabla ANO VA para el ejemplo 12.3 



Fuente de 
variación 


g> 


SC 


CM 


Valor F 


Tratamientos, 
Error 


3 
16 


0.004695 
0.0012 


0.001565 
0.000075 


20.87 


Total 


19 


0.005895 


/o.95. 3. 16 = 


= 3.24 



T 4 = 5.93. El total global es T.. = 24.09, y los tamaños de todas las muestras 
son n = 5. Entonces 

24 09 2 

STC = 1.24" + 1.22 2 + ••• + 1.20 2 ~ = 0.005895, 

20 

SCJR = 6.14' + 6.03' + 3.99* + 3.93' _ 24_09> = Q ^ 

SCE -= 0.005895 - 0.004695 = 0.0012. 

La tabla ANOVA se da en la tabla 12.7. Dado que / = 20.87 > / 095 . 3 , 16 = 3.24, 
se rechaza la hipótesis nula de que no hay variación debida a las máquinas. 

Para estimar la varianza en los pesos y qué proporción de ésta puede atribuirse a 
las diferencias entre las máquinas, recuérdese que para un modelo de efectos aleato- 
rios 

Var(Y,j) = a 2 + a 2 T . 

De (12. 15), un estimado de a 2 es CME = 0.000075, y un estimador de a 2 + 5o- 2 . es 
CMTR = 0.001565. En otras palabras, 

0.000075 + 5í 2 = 0.001565 

, 0.001565 - 0.000075 



= 0.000298 
es un estimador de o- 2 . Entonces un estimador de la varianza en el peso es 

S \Y U ) = 0.000075 + 0.000298 
= 0.000373, 
de la cual 0.000298/0.000373, o el 79.89%, se debe a diferencias entre las máquinas. 
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12.5 Análisis de experimentos con sólo un factor en un diseño en 
bloque completamente aleatorizado 

Recuérdese que cuando las unidades experimentales no son homogéneas, se introdu- 
ce una fuente potencial de variación que, en general, puede afectar la inferencia con 
respecto al factor de interés. En estos casos es necesario emplear un diseño alea- 
torizado para remover la fuente externa de variación con lo que se incrementa la sen- 
sitividad para detectar diferencias entre los tratamientos de interés. 

Ejemplo 12.4 La agencia de Protección del Medio Ambiente (APMA) anualmente 
clasifica de acuerdo con la eficiencia en el quemado de combustible a todos los auto- 
móviles disponibles para venta de Estados Unidos. Sin embargo, es un hecho muy 
conocido que las clasificaciones de la APMA se basan, principalmente, en pruebas 
de laboratorio y de esta forma se tiende a sobreestimar la eficiencia real en el quema- 
do de combustible. Una empresa independiente desea determinar si existe una dife- 
rencia, estadísticamente discernible, en la eficiencia del quemado promedio de com- 
bustible bajo condiciones de rodamiento real para cinco automóviles compactos que 
tienen la misma clasificación APMA. La empresa tiene acceso a un recorrido de 
400 millas que incluye tanto el manejo en ciudad como en carretera. Estúdiense los 
aspectos de diseño de este experimento. 

Es claro que los tratamientos están constituidos por los cinco automóviles y que 
la respuesta medible es el número de millas por galón logradas por los automóviles 
durante el recorrido de 400 millas. Pero, ¿cuál es la unidad experimental?; ésta tiene 
que ser la persona que maneja el automóvil, pero no es común que una empresa que 
realiza pruebas utilice un conductor para todo el experimento. Supóngase que se es- 
cogen cuatro conductores para el experimento. Aunque la empresa explicará el pro- 
pósito del experimento en forma breve, a los conductores ya se ha introducido otra 
fuente de posible variación. No importa qué tan similares sean los conductores entre 
sí; a pesar de todo existe un riesgo potencial de tener efectos por los conductores que 
pueden tomarse en cuenta mediante la creación de cuatro bloques, uno para cada 
conductor, de tal manera que los tratamientos dentro de cada bloque (los cinco 
automóviles) se apliquen a unidades experimentales homogéneas (el mismo conduc- 
tor). La pregunta que surge en este momento es, ¿cómo asignar los automóviles a los 
conductores? El diseño aleatorizado especifica que la asignación de los tratamientos 
a las unidades experimentales dentro de cada bloque debe hacerse en forma aleato- 
ria. De esta manera, para asignar el orden en el cual serán manejados los automóvi- 
les por cada conductor, se concibe un proceso de selección aleatorio simple. Por 
ejemplo, la asignación puede hacerse de acuerdo con la tabla 12.8, la cual constituye 
un diseño en bloque completamente aleatorizado. 

A continuación se analizará un experimento con sólo un factor en un diseño en 
bloques completamente aleatorizado. Primero será necesario generalizar para des- 
pués regresar al ejemplo de la eficiencia en consumo de combustible e ilustrar los pa- 
sos del cálculo. Las observaciones del experimento pueden colocarse como se mues- 
tran en la tabla 12.9. 
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TABLA 12.8 Diseño en bloque completamente aleatorizado para el ejemplo 12.4 

Automóvil 

1 A, Ai 

Conductor 



1 


A, 


Ai 


A, 


A, 


Ai 


2 


A, 


Ai 


A 4 


A 2 


A, 


3 


A 4 


A, 


\ A, 


A, 


A 2 


4 


A 2 


A, 


A 4 


A, 


A 3 



Supóngase que se tienen k tratamientos y n bloques, el modelo matemático para 
un diseño con sólo un factor en bloques completamente aleatorizado es 



Y¡j = n + & + Tj + e¡j i = I, 2, ...-, n, 

j = 1,2, ...,k, 



(12.16) 



en donde Y,j es la observación de la respuesta en el i-ésimo bloque y bajo eiy-ésimo 
tratamiento, t¿ es la media global, /3, es el efecto sobre la respuesta debido al i-ésimo 
bloque, t, es el efecto debido alj-ésimo tratamiento y s u es el error aleatorio. Como 
en el caso anterior, se da por hecho que los errores son variables aleatorias indepen- 
dientes, tales que £<, ~ iV(0, a 2 ) para toda i yj. Si tanto los tratamientos como los 
bloques son de efectos fijos, entonces las /3,'y los r¡ son parámetros fijos que repre- 
sentan desviaciones de las medias de los bloques y los tratamientos de la media glo- 
bal, respectivamente. En otras palabras, 



/3, = ¡í¡. - n., i = 1,2, ...,«, 



(12.17) 



r ) = H-j 



M, 



j= 1,2,..., k. 



en donde n¡. y fi.j son las medias de las población para el i-ésimo bloque y elj-ésimo 
tratamiento, respectivamente. 

Al igual que en el diseño completamente aleatorizado, se supone que las varianzas de 
la población para todos los tratamientos son iguales. También debe suponerse que el 
efecto del tratamiento sobre la respuesta es el mismo para todos los bloques; en otras 



TABLA 12.9 Arreglo común de las observaciones para un diseño con sólo un factor en blo- 
que completamente aleatorizado 



Bloque 



i . 



y» 

y } 2 

Ya 
Y„i 



Tratamiento 

"• j 

Y 2J 
Y„ 
Y„ 



Yn 

Y 2k 

Y, k 
Y* 



í« 
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palabras, puede obtenerse la misma conclusión a partir de todos los bloques con res- 
pecto al efecto del tratamiento. Cuando esto ocurre se dice que los tratamientos y los 
bloques no interactúan, y sus efectos individuales sobre la respuesta son aditivos. La 
noción de interacción entre dos factores se examinará en la siguiente sección. 

Para un diseño de un sólo factor en bloque completamente aleatorízado, el prin- 
cipal propósito es determinar si las diferencias en los tratamientos son estadística- 
mente significativas, es decir, para el caso de efectos fijos se desea probar la hipóte- 
sis nula 

H : T] = Q, j= 1,2,...,*. 

El lector puede sorprenderse con respecto al efecto del bloque, pero el interés, en rea- 
lidad, no recae en determinar si éste es estadísticamente apreciable. Todo lo que se 
desea hacer es aislar el efecto del bloque y removerlo del error experimental, de tal 
manera que se incremente la e^cifcia para detectar diferencias reales entre los tra- 
tamiento*;, si es que éstas existen. 

Para el procedimiento del análisis de varianza, puede escribirse el modelo dado 
por (12.16) como 

6y = yy'-A-ft-Ty. (12.18) 

Al sustituir (12.17) para /3, y r, en (12.18), se tiene 

e¡j = Y u - fx - /*,. + M " H + fí- (12.19) 

Ahora, al reemplazar (12.17) para ¿3, y r, y (12.19) para e, 7 en (12.16) se obtiene la 
siguiente identidad: 

Y u -tí = (&. -ft) + {fx.j - M ) + (Y,j - n, - fi.j + fi). (12.20) 

En otras palabras, la desviación de una observación con respecto a la media global 
tiene tres componentes (la desviación debida a los bloques, a los tratamientos y al 
error aleatorio). 

Para las observaciones que se encuentran en la tabla 12.9 se definen las siguientes 
estadísticas: 



T, = £ Y ¡Jt 


Y, = T¡./k, i = 1,2,. 


.., n 




Y.j=T.j/n, y=l,2... 


..,k 


¡=ly=l 


Y = T./nk. 





Por lo tanto, la identidad en términos de la muestra correspondiente a (12.20) es 
Y,j -?.. = (Y, - Y) + (Y, - ?..) + Wj - Y,. - Y.j + Y..). 
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Al elevar al cuadrado ambos miembros y llevar a cabo la suma sobre i y y se tiene la 
relación 

2 2 (y u - T.y = ¿ i ( 7, - 1.? + i i (?.j - Y.y 

i-l>=l ;=ly=l ¡=\j=\ 

n k 

+ 22 (Y,j - Y- - Y.j + Y.) 2 , 

/= i j= i 

en donde puede demostrarse que los tres términos que contienen productos cruzados 
se reducen a cero. Ésta es la ecuación fundamental para el análisis de varianza, y es- 
tablece que la suma total de los cuadrados STC se separa en la suma de los cuadra- 
dos de los bloques SCB, la suma de los cuadrados de los tratamientos SCTR y la 
suma de los cuadrados de los errores SCE. 

Por causa de la restricción 2JL , 2* = , ( Y¡j - Y.) = 0, el número de grados de li- 
bertad_para STC es igual a nk - 1 . En forma similar, por causa de las rtitricciones 
2?_, (7, - Y ) - y 2f_, (Y.j - Y.) = 0, el número de grados de libertad 
para SCB y SCTR son iguales a/i-lyt-1, respectivamente. Se sigue que 

gl(SCE) = gl(STC) - gl(SCB) - gl(SCTR) 

= nk - 1 - (n - 1) - (k - 1) 

= (/! - IX* - O- 

Puede demostrarse que bajo las suposiciones del modelo y la hipótesis H : r¡ = 
0, SCTR/o- 2 y SCE/cr 2 son dos variables aleatorias independientes con una 
distribución chi-cuadrada con k - 1 y (n - 1) (k - 1) grados de libertad, en forma 
correspondiente. También puede demostrarse que los valores esperados de los 
cuadrados medios del error y del tratamiento son 

£(CME) = o- 2 



n 2 T j 



£(CMTR) = a- + 



I 



Entonces, con base en el argumento previo, la estadística de prueba apropiada es el 
cociente de los cuadrados medios del tratamiento y del error, el cual tiene una distri- 
bución Fcon k - 1 y (n - 1) (k - 1) grados de libertad. Como antes, se sugiere una re- 
gión crítica de tamaño a, ya que un valor grande del cociente tiende a implicar que 
no todas las medias de los tratamientos son las mismas. El análisis de varianza apa- 
rece en la tabla 12.10. 

Debe notarse que es posible una prueba para el efecto de bloque al formar el co- 
ciente entre CMB y CME y compararlo con la región crítica que se encuentra en el 
extremo superior de una distribución Fcon n - 1 y (n - 1) (k - 1) grados de libertad. 
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TABLA 12.10 Tabla de análisis de varianza para un experimento con sólo un factor en blo- 
que completamente aleatorizado 

Fuente de 

variación gl SC CM Estadística F 

Bloques n - 1 22(y; - Y..) 1 

Tratamientos* - 1 22(7, - Y..) 2 CMTR = SCTR/(A - 1) F = — — 

_ _ _ CME 

Error (/i - l)(/t - 1) 22(K J - Y, - Y¡ + Y.f CME = SCE/(n - 1)(* - 1) 

Total nk - 1 22(}' i/ - ~Y f 



Lo anterior no constituye en realidad una parte integral del análisis. Después de 
todo, se escoge un bloque completamente aleatorizado para un experimento con só- 
lo un factor para remover el efecto potencial de la fuente de variación extraña. Si tal 
efecto es estadísticamente significativo, realmente no es de gran interés. 

Para realizar cálculos a mano, es preferible emplear las siguientes fórmulas que 
son equivalentes, en un sentido algebraico, para obtener las sumas de cuadrados. 

n k _2 

;= i j= i "" 

1 " T 2 

SCB = l^Tl-^- 

k i=l nk 

1 * T 2 

SCTR = - Y T] ■,- — 
«_,-=i nk 

SCE = STC - SCB - SCTR 

Para ilustrar los pasos de cálculo, supóngase que los resultados del experimento 
descrito en el ejemplo 12.4 son los que se muestran en la tabla 12.1 1 (las mediciones 
están dadas en millas por galón para un recorrido de 400 millas). Para probar la hi- 
pótesis nula 

H : Tj , = 0, J = 1,2 5, 

las sumas de cuadrados dan 

STC = 33.6 2 + 36.9 2 + ••• + 32.8 2 - ^^- = 102.212, 

20 

SCB = '56.1- + -- + .72.4 2 _ 672^ 
5 20 

SCTR = l39 " 52 + - + 133 - 32 - ^ = 3 8 . 92, 
4 20 



k 
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TABLA 12.11 Datos experimentales para el ejemplo 12.4 



Conductor 


A, 


A 2 


Automóvil 
A } 




A A 


A s 


Totales 


1 

2 
3 
4 

Totales T. t 


33.6 
36.9 
34.2 
34.8 

= 139.5 


32.8 
36.1 
35.3 
37.1 

T 2 = 141.3 


7-3 


31.9 
32.1 

33.7 
34.8 

= 132.5 


T.4 


27.2 
34.4 
31.3 
32.9 

= 125.8 


30.6 
35.3 
34.6 
32.8 

T s = 133.3 


TV = 156.1 
7Y = 174.8 
Ty = 169.1 
7V = 172.4 

T. = 672.4 



SCE = 102.212 - 41.676 - 38.092 = 22.444. 

La tabla ANOVA se encuentra dada en la tabla 12. 12. Dado que / = 5 .09 > / 95 , 4t 12 
= 3.26, se rechaza la hipótesis nula de igualdad de efecto de tratamiento. Por 
lo tanto, existe una razón para creer que las eficiencias en consumo medio de com- 
bustible de algunos de estos automóviles no son iguales. 

La identificación y eliminación del efecto de los bloques de la variación total per- 
mite que se hagan comparaciones múltiples sobre los tratamientos, como ya se vio 
en la sección 12.4.2. Pueden definirse y probarse un gran número de contrastes para 
determinar si son estadísticamente apreciables al seguir el procedimiento delineado 
en la sección 12.4.2. La única excepción es que la cantidad denotada por A en 
(12.14) ahora está dada por 



A = y/(k- 1)/,. 



*- 1. (íi-ix*-i). 



! 



A veces los bloques no son de efectos fijos, es decir, se eligen para el experimento 
en forma aleatoria de una población de posibles bloques. Si los tratamientos son de 
efectos fijos, la única diferencia con respecto al caso previo se encuentra en la supo- 
sición de /3,; i.e., /3, ~ N(0, a 2 p ); pero el análisis sigue siendo el mismo, aun para 
comparaciones múltiples entre los tratamientos. ¡ ; ¡I 

Además de la suposición de independencia, se hacen dos suposiciones clave para 
un diseño en bloques aleatorizados: las varianzas de cada tratamiento son iguales y 



TABLA 12.12 Tabla ANOVA para el ejemplo 12.4 



Fuente de 
variación 


gl 


SC 


CM 


Valor F 


1 


Bloques 

Tratamientos 

Error 


3 

4 

12 


41.676 
38.092 
22.444 


9.523 
1.870 


5.09 


% 


Total 


19 


102.212 


fots. i. 12 = 


= 3.26 


i. ; .§M 
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los bloques y tratamientos no interactúan. La presencia de interacción entre bloques 
y tratamientos implica que no es posible evaluar el efecto del tratamiento sobreto- 
dos los bloques, sino que éste se debe describir en forma individual para cada blo- 
que. Si además los efectos del bloque y del tratamiento son aditivos, la estadística F 
no es sensitiva a la violación de la suposición de varianzas iguales; para estas, si existe 
una interacción entre bloques y tratamientos, la estadística F se encuentra sesgada 
negativamente, es decir, si se rechaza la hipótesis nula de que no existe diferencia al- 
guna entre los tratamientos, entonces puede confiarse en que existe una diferencia 
entre los tratamientos. Pero si la hipótesis nula no se rechaza, esto se puede deber, ya 
sea a un sesgo negativo (la presencia de interacción) o a la ausencia de diferencias 
entre los tratamientos. Puede emplearse un procedimiento desarrollado por Tukey, 
el cual se describe en [4], para probar la interacción entre bloques y tratamientos. 

Si se violan tanto la suposición de varianzas iguales como la de aditividad, la 
estadística F para las diferencias en los tratamientos tiene un sesgo positivo; en otras 
palabras, si se rechaza la hipótesis nula de que no existe ninguna diferencia entre los 
tratamientos, esto no necesariamente implica que las diferencias entre los tratamien- 
tos sean estadísticamente significativas. Cuando existe preocupación sobre estas su- 
posiciones, debe usarse una prueba F conservadora desarrollada por Geisser y 
Greenhouse (véase [4]). Los pasos de cálculo para esta prueba son iguales a los del 
método convencional ya descrito, excepto que el número de grados de libertad para 
este caso es de 1 y n - 1 en lugar de k - 1 y (/? - 1) (k - 1), para cada uno. Si para am- 
bas pruebas se rechaza la hipótesis nula, puede tenerse la seguridad de que las dife- 
rencias entre los tratamientos son estadísticamente significativas. Si ambas pruebas 
no rechazan a H , entonces se puede proceder como si no existiese diferencia alguna 
entre los tratamientos. 



12.6 Experimentos factoriales 

Hasta este momento la presentación se ha dirigido hacia el análisis del efecto de un 
factor sobre la variable respuesta. Pero en muchas situaciones prácticas es necesario 
investigar, en forma simultánea, los efectos que tienen varios factores sobre la res- 
puesta. Una forma muy eficiente de lograr lo anterior es mediante el uso de un expe- 
rimento factorial en el que todos los niveles de un factor se combinan con todos los 
niveles de cualquier otro para formar los tratamientos. Por ejemplo, en un experi- 
mento factorial de dos factores en el que uno tiene tres niveles y el otro dos, existirán 
3x2 = 6 tratamientos. En otras palabras, la respuesta será observada bajo seis tra- 
tamientos diferentes. 

Con los experimentos factoriales no sólo es posible evaluar los efectos indivi- 
duales de los factores sobre la respuesta, sino que también es posible determinar el 
efecto causado por sus interacciones. El efecto de un factor sobre una respuesta es 
simplemente el cambio en ésta, causado por un cambio en el nivel del factor. Pero si 
el efecto de un factor sobre la respuesta es diferente para distintos niveles de otro 
factor, entonces se dice que los dos factores interactúan entre sí. La presencia de in- 
teracción indica que el efecto de los factores sobre la respuesta es no lineal y de esta 
forma no puede asumirse un modelo aditivo. 



12.6 Experimentos factoriales 4X1 

Para ilustrar la interacción entre dos factores, considérese lo siguiente. Un fabri- 
cante de partes electrónicas emplea dos hornos y dos temperaturas con el propósito 
de probar la duración de cierto componente. Se seleccionan cuatro componentes de 
algún lote y se prueba su duración de acuerdo con las cuatro combinaciones posibles 
de hornos y temperaturas. El tiempo de duración de los componentes en horas es el 
siguiente: 



O, 



2 



6.29 
5.80 



5.95 
6.32 



Los tratamientos para las cuatro posibles combinaciones de hornos y temperatu- 
ras son: O, T\ , 0¡ T 2 , 2 T, , y 2 T 2 . La diferencia en duración para los tratamientos 
O i T 2 y 0, 7, representa un estimador del efecto en la duración de los componentes en 
el primer horno, a consecuencia de un cambio en la temperatura. Se observa que este 
estimador es 5.80 - 6.29 = - v. 49. La diferencia en duración para los tratamientos 
2 T 2 y 2 T l también es un estimador del efecto de la temperatura sobre la duración, 
pero ahora en el segundo horno. Esta diferencia es de 6.32 - 5.95 = 0.37. Dado 
que estos dos estimadores son bastantes diferentes entre sí, el efecto de la temperatu- 
ra en la duración del componente depende del horno en que éste se coloque. De esta 
forma, existe una interacción entre el horno y la temperatura. También se observa la 
misma ocurrencia al estimar el efecto del horno para 7, (5.95 - 6.29 = - 0.34) y 
7 2 (6.32 - 5.80 = 0.52). Estos resultados se ilustran en forma gráfica en la figu- 
ra 12.2 en donde el eje y representa las observaciones de la respuesta; el eje x repre- 



FIGURA 12.2 Efectos que interactúan 
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senta los niveles de un factor y los puntos graneados representan a cada nivel del 
otro factor. Si existe poca interacción entre el horno y la temperatura, las lineas que 
aparecen en la gráfica serían casi paralelas. 

La determinación de si los efectos individuales o interacciones son estadística- 
mente apreciables puede hacerse sólo mediante inferencia estadística y no mediante 
el empleo de un análisis gráfico. En los siguientes párrafos se examinará un modelo 
no aditivo para un experimento factorial de dos factores en un diseño completamen- 
te aleatorizado. Se pueden analizar experimentos factoriales con más de dos factores 
mediante la extensión del procedimiento que a continuación se examina. 

En un experimento factorial que incluye dos factores A y B con a y b niveles, res- 
pectivamente, el número de tratamientos es igual a o x b. Si no se puede suponer un 
modelo aditivo (no interacción), sólo es posible una prueba para determinar si 
un efecto por interacción es estadísticamente apreciable, si se toma más de una ob- 
servación de la respuesta para cada tratamiento. Lo anterior se debe a que no puede 
determinarse para cada estimador de la variación del error aleatorio a menos que la 
respuesta se observe más de una vez cada tratamiento, es decir, la evaluación de 
la variación del error aleatorio se basa en las diferencias en la respuesta observada 
bajo el mismo tratamiento. No está por demás notar que para un diseño completa- 
mente aleatorizado, los tratamientos deben aplicarse a unidades experimentales ho- 
mogéneas sin importar cuántas veces se repita el proceso. 

Si se suponen n aplicaciones de los ab tratamientos, el modelo matemático no 
aditivo para un factorial de dos factores es 

Y Uk = ix + a¡ + j8 ; + (aB) u + e iJk i = 1, 2 a, (12.21) 

j= 1,2 b, 

k = 1,2, ..../i, 

en donde Y iJk es la £-ésima observación de la respuesta para el tratamiento (/, y), í¿ es 
la media global, a, es el efecto principal causado por el /-ésimo nivel de A, /3, es el 
efecto principal causado por el ./-ésimo nivel de B, (a/3), 7 es el efecto de interacción 
para el /'-ésimo nivel de A y ely'-ésimo nivel de B y s ijk es el Ar-ésimo error aleatorio en 
el tratamiento (/, j). Como antes, se supone que las varianzas de la población para 
cada uno de los ab tratamientos son iguales, y que los errores aleatorios son va- 
riables aleatorias independientes, normalmente distribuidas, con medias iguales a 
cero y varianza común a 2 . 

Si se supone que los factores A y B son de efectos fijos, entonces a,, B¿, y (aB)¡j 
son parámetros fijos, tales que 

,=i 7=1 



b 



2 (aj8) l7 = 2 («j8) f> = 0. 



.; 'i 



para toda 
Las siguientes hipótesis son de interés: 
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1. //„:(a/3), v = para toda i y j, 

2. H :a¡ = para toda/, 

3. H :fij = para toda j . 

Las últimas dos hipótesis incluyen los efectos (individuales) principales de los facto- 
res A y B, y la primera hipótesis pertenece a la posible interacción entre A y B. Si 
existe una fuerte interacción entre A y B, los resultados de las pruebas para 
demostrar un efecto principal causado por A o B pueden no ser significativos. Lo 
anterior es cierto debido a que los dos factores pueden interaccionar en tal forma 
(direcciones opuestas) que los efectos se compensen para uno o ambos factores. Este 
proceso de compensación puede evitar la detección de efectos principales significati- 
vos con base en una comparación entre las medias del nivel del factor. 

Para desarrollar el procedimiento del análisis de varianza, puede escribirse el 
modelo (12.21) en términos de las desviaciones, al igual que en los casos previos. 



Y¡jk - M = (Mí- - M) + (M-/ ~ /*) 



fj.;.. 



(l.j. + fi) + (Y ijk - kj), (12.22) 



en donde n¡.. es la media real del /'-esimo nivel de/1, /jl.j. es la media real del j'-ésimo 
nivel de B y fi¡j. es la media real del tratamiento (/, j). De esta forma, la igualdad dada 
por (Í2.22) establece que la desviación de una observación con respecto al promedio 
global está formada por cuatro componentes: las desviaciones causadas por el efecto 
principal de A; por el efecto principal de B; por el efecto de interacción entre A y B, 
por el error aleatorio. 

Las observaciones de un factorial con dos factores en un experimento completa- 
mente aleatorizado pueden colocarse como se muestra en la tabla 12.13. De ésta se 



TABLA 12.13 Arreglo común de las observaciones para un diseño factorial con dos factores 
y n observaciones por tratamiento 



Nivel 1 



A 

Nivel ¡ 



Nivel a 



Nivel 



B Nively y„, ■•• Y yk - >„ 



Nivel b Y íbt - Y lbk - Y lbR 



Y iJt - Y 



Y,b\ '*" Y ibk ■•■ Y¡ 



■- - Y 

ijk * ijft 



Y u ii '" Y M •■• Y„\ 



Y„j\ ' ' ' ' u¡k ' ' ' 'ü¡n 



Y a b\ "' Y„hk "" '»* 
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definen las siguientes estadísticas: 



b n a n a b 



T¡ — Zj Zj Y¡jk> T.y — Zj 2j Y¡j>" ^ * ~ 2j 2j 'ijk> 

j=i t=i i=i *=i 1=1 y- 1 

Y,. = T,./nb, Y.j. = T.j./na, Y.. k = T.Jab, 

n 
a b n 

T =22 2 Y iJk , Y = T./nab. 
í=i j=i *=i 

Nótese que T¡. (7 V .) es la suma de todas las observaciones en el /'-ésimo (/-ésimo) ni- 
vel de A (B) y T..¿ es la suma de todas las observaciones en la /t-ésima repetición. En 
forma similar, T¡j. es la suma de todas las observaciones en el tratamiento (i, j). Las 
definiciones correspondientes para las mediac de la muestra deben ser aparentes. 

Al reemplazar los parámetros en (12.12) con sus correspondientes estimadores, 
se tiene 

(Y U k ~ Y-) = (Yi- - Y) + (Y.j. ~ Y) 

+ (7y. - ?,. - Y.j. + Y.) + (Y iJk - Y u ). 

Si se eleva al cuadrado la identidad con base en la muestra anterior y se suman sobre 
i, j y k, todos los términos que contienen productos cruzados se reducen a cero, y se 
tiene el siguiente resultado: 

22 2(Y, Jk - Y-) 2 -nb2 (Yi- ' Y-) 2 + ™2 (?,■ ' Y? 

i j k ¡ j 

+ n 2 2 (Yu ' Y - Yj- + Y-? + 2 2 2 (Yijk - Yj-f- (12-23) 

i j i j k j 

En otras palabras, la suma total de cuadrados se separa en las sumas de cuadrados 
debidas: al factor A (SCA), el factor B (SCB), a la interacción entre A y B (SCAB) y 
a los errores (SCE). 

También puede escribirse el modelo (12.21) en términos de las desviaciones 
causadas por los tratamientos y el error aleatorio, es decir 

(Y ijk - M ) = (Mo- " M) + (Y¡jk ~ M,,)- (12.24) 

En esta forma, la desviación debida a los tratamientos abarca los efectos debidos a A, 
B y la interacción A B. Al sustituir en (12.24) las correspondientes estadísticas, se 
tiene 

(Y i]k - Y.) = (?¡j. - ?...) + (Y iJk - Y ir ), 
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las que, a) elevarse al cuadrado y sumar sobre i, j y k, dan como resultado 

2 2 2 (r uk - T..y = nZ2 (y u . - ?...) 2 +,2 2 2 (^ - V. 

i y ic i y i j k 

O 

STC = SCTR + SCE. (12.25) 

De (12.23) se desprende que 

SCTR = SCA + SCB + SCAB. (12.26) 

Puede demostrarse que, con base en (12.23), la descomposición del número de gra- 
dos de libertad es la siguiente: 

gl(STC) = gl(SCA) + gl(SCB) + gl(SCAB) + gl(SCE), 



inab - 1) = (a-- 1) + (b - 1) + (a - \){b - 1) + ab(n - 1). 

Para las suposiciones del modelo y la hipótesis de interés, SCA/o- 2 , SCB/cr 2 , 
SCAB /o- 2 , y SCE/ a 2 son variables aleatorias independientes chi-cuadrada con (a - 
1), (¿» - 1), (a - 1) (¿» - 1) y ab (n - 1) grados de libertad, para cada una. De acuer- 
do con lo anterior, la estadística de prueba para los efectos principales y de interac- 
ción son los cocientes entre los cuadrados medios, correspondientes y cuadrado 
medio del error y tienen una distribución F. Al igual que para los casos anteriores, 
una región crítica de tamaño a en el extremo superior de la región es la apropiada 
para cada caso. Puede observarse que el resultado anterior sigue siendo válido al 
examinar los valores esperados de los cuadrados medios. Para el caso de efectos fi- 
jos, estos valores son los siguientes: 



£(CME) = o- 2 , 
£(CMA) = o- 2 + nb 

£(CMB) = o- 2 + na 

£-(CMAB) 2 + n 



Sa 2 

a - r 
b - r 

2 2 (a/3) 2 



Ui - \){b - 1) 



Si no existe ninguna interacción entre A y B (es decir, si (a/3), v = para toda /' y 
7), entonces CMAB y CME tienen el mismo valor esperado y los efectos son aditivos. 
Pero si el cociente CMAB /CME tiene un valor suficientemente grande, esto sugeri- 
ría una interacción estadísticamente apreciable entre A y B y, por lo tanto, 
debe rechazarse la hipótesis nula. De manera similar si a, = para toda /, CMA y 
CME tienen valores esperados iguales y no existe un efecto principal causado por A. 
Pero un cociente grande entre CMA y CME tiende a implicar aue el efecto principal 
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atríbuible a A es estadísticamente significativo. El mismo argumento es válido para 
el efecto principal de B. 

En la tabla 12.14 se encuentra un resumen del análisis de varíanza para un diseño 
factorial con dos factores. Aunque en la tabla se proporcionan fórmulas de cálculo 
para cada fuente de variación, la práctica usual para realizarlos a mano es calcular 
SCr mediante la fórmula que aparece en la tabla 12.14 y SCTR de la fórmula 



SCTR^SZl* T 



2 

nab 



Entonces puede obtenerse SCE al emplear (12.25). A su vez, mediante el empleo de 
las fórmulas que aparecen en la tabla 12.14 se calculan SCA y SCB, y se obtiene 
SCAB con base en (12.26). 

Ejemplo 12.5 Se llevó a cabo una investigación para determinar si pueden en- 
contrarse diferencias apreciables en los salarios iniciales para contadores graduados 
con base en el sexo, localidad del lugar de trabajo o la interacción de los dos. El estu- 
dio se llevó a cabo en grandes ciudades del noroeste, el oeste medio y el oeste. Se 
piensa que será suficiente un arreglo factorial en un diseño completamente aleatori- 
zado. Se decide emplear los salarios iniciales de cuatro personas para cada una de las 
seis combinaciones de tratamientos. Para asegurar que las unidades experimentales 
son homogéneas, se seleccionaron personas con antecedentes muy similares en la 
medida de lo posible. Tienen la misma edad y el mismo promedio de calificaciones 
durante sus estudios; ninguno tenía experiencia profesional y todos se graduaron en 



TABLA 12.14 Tabla ANOVA para un experimento factorial con dos factores completamen- 
te aleatorizados 



Fuente de 
variación 



gl 



SC 



CM 



Estadística F 



Factor A 



a - I 



nb , nab 



SCA/U/ - 1) 



CMA/CME 



Factor B 



h - I 



rut , nah 



SCB/i/, - |) 



CMB/CME 



Interacción AB (« - ])íb I) 



" I I n " < 
>. T-. + — - 



SCAB/Ui lllfc - I) CMAB/CME 



Error 



(ibt/i I) 



VVE^-n Ti 



SCE/abtn - I) 



Total 



ub - I 



V V V y],, - 



nab 
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TABLA 12.15 Sálanos iniciales para contadores graduados (miles de dólares) 

Noroeste Oeste medio Oeste Totales 

Mujeres 15.2 14.9 16.2 

15.9 
16.8 
15.8 

T». = 64.7 T. t = 189.1 

Hombres 18.1 17.8 18.4 

16.8 

17.5 | 

18.7 N 

T n = 69.5 ' T 22 .= 71.7 T )2 = 71.4 T 2 . = 212.6 JÍ 

Totales T,.. = 131.9 T 2 = 133.7 7, = 136.1 T... 401.7 



universidades del mismo nivel académico. Con base en la información de la muestra 
proporcionada en la tabla 12.15, determínense cuáles efectos son estadísticamente 
apreciables. 



15.2 


14.9 


16.8 


16.2 


15.5 


15.6 


14.9 


15.3 


62.4 


T„. = 62.0 


18.1 


17.8 


16.3 


18.2 


17.2 


18.1 


17.9 


17.6 



Las sumas de interés aparecen en la tabla. Entonces 

401 7 2 

STC = 15.2 2 + 16.8 2 + — + 18.7 2 — = 32.8563, 

24 

«~™ 62.4 2 + 69.5 2 + ••• + 71.4 2 401 .7 2 „ „„ „ 

SCTR = — = 24.7838, 

4 24 

SCE = 32.8563 - 24.7838 = 8.0725. 
De manera similar, 

SC(SEX) . ■■»•■' ¿"i* - mí . a.,,04. 

12 24 

SC(L0 C) . 13L9 ' + l3 f+ ™* - ^f - I..I. 

De esta forma 

SQLOC x SEX) = 24.7838 - 23.0104 - 1.11 = 0.6634. 

La tabla del análisis de varianza se encuentra en la tabla 12. 16. Con base en esta 
información, puede concluirse que el único efecto discernible estadísticamente en el 
salario inicial se debe al sexo del graduado. 

Debe notarse que el método de Scheffé para comparar las medias del nivel del 
factor se extiende, en forma directa, a experimentos factoriales. También puede 



til 

:: ; ! 
i! i 
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TABLA 12.16 Tabla ANOVA para el ejemplo 12.5 



Fuente de 
variación 


gl 


SC 




CM 


Valor F 


Localidad 

Sexo 

Localidad x sexo 

Error 


2 

1 

2 

18 


1.11 
23.0104 
0.6634 
8.0725 




0.555 

23.0104 

0.3317 

0.4485 


1.24 

51.31 

0.74 


Total 


23 


32.8563 


Aw, 1,18 _ 8.29', /o.99, 2, 


n = 6.01 



efectuarse un análisis de residuos para los niveles de cada factor para verificar, entre 
otras cosas, la hipótesis de varianzas iguales. Los residuos se obtienen mediante el 
empleo de la relación 

" ijk y ¡jk y¡j • 

En los casos que se han examinado hasta este momento, siempre se empleó el 
cuadrado medio del error como el denominador del cociente F. Sin embargo, para 
experimentos estadísticos que incluyen dos o mas factores, lo anterior no siempre es 
válido. La estadística F apropiada para un análisis de varianza depende, en forma 
directa, de las esperanzas de los cuadrados medios de las fuentes de variación, las 
que a su vez dependen de si se consideran a los efectos correspondientes como fijos 
o aleatorios. 

Para experimentos factoriales con dos factores surgen tres situaciones distintas: 
a) los niveles de ambos factores son de efectos fijos; b) los niveles de ambos factores 
son de efectos aleatorios, o c) los niveles de un factor son de efectos fijos mientras 
que los del otro son de efectos aleatorios. Ya se ha analizado la primera posiblidad. 
Para las otras dos, los valores esperados de los cuadrados medios tanto para el mo- 
delo de efectos aleatorios como para el modelo de efectos mixtos se proporcionan en 
la tabla 12.17. 



TABLA 12.17 Esperanzas de cuadrados medios para un factorial con dos factores: modelos 
de efectos aleatorios o de efectos mixtos 





Efectos aleatorios (A y B aleatorios) 


Efectos mixtos (A fijo, B aleatorio) 


Fuente 


ECM Estadística F 


ECM Estadística F 


A 


o- 2 + na-lfi + nbal CMA/CMAB 


a 2 + no-L + nb 1 "' CMA/CMAB 

(a - 1) 


B 


o- 2 + "(rlff + naa¡ CMB/CMAB 


,t 2 + na<r¡ CMB/CME 


AB 


a- 2 + no-ip CMAB/CME 


a 2 + nalp CMAB/CME 


Error 


a' 


a 2 
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Con base en el material de este capítulo, el procedimiento que se ha empleado 
para construir la estadística de prueba es comparar dos cuadrados medios que, bajo 
la hipótesis nula, tengan el mismo valor esperado, y bajo la hipótesis alternativa, el 
IR cuadrado medio del numerador tenga un valor esperado mucho más grande que 

el del denominador correspondiente. Si la hipótesis nula es cierta, la estadística tiene 
una distribución F con un número apropiado de grados de libertad. Con esto en 
mente, los cocientes de cuadrados medios indicados en la tabla 12.17 deben ser ya 
evidentes. Por ejemplo, considérese el caso de efectos aleatorios y, en particular, la 
hipótesis nula de que no existe variación alguna entre todos los posibles niveles de A; 
estoes, H : o- 2 = 0. Si H es cierta, entonces E(CMA) = o- 2 + no- 2 ,,, donde a 2 a/3 
denota la varianza causada por la interacción entre A y B. Pero este valor esperado 
es el mismo sólo para E (CMAB) y no para E (CME) bajo //„. Por otro lado, si 
H es falsa, E (CMA) es-mayor que E (CMAB). De acuerdo con lo anterior, la 
estadística de prueba apropiada para //„ es CMA /CMAB. 

Debe recordarse que en experimentos factoriales, el cuadrado medio del error 
será el denominador en el cociente de cuadrados medios para todos los efectos princi- 
pales y de interacción, sólo si los niveles de todos los factores son d? efectos fijos. De 
esta forma, en la fase de diseño de un experimento estadístico es muy importante la 
selección de los niveles del factor, ya que tienen una influencia directa en el análisis. 
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Ejercicios 

12.1. Suponga que se asigna al lector la responsabilidad de investigar en una fábrica el efecto 
que pueden tener diferentes cambios en la semana de 40 horas de trabajo, sobre la pro- 
ductividad promedio en una gran fábrica. En forma específica, se desean comparar 
cinco días a la semana, 4 días a la semana y 3 'A-días a la semana. Describa con gran de- 
talle su propuesta de diseño estadístico. Asegúrese de identificar los tratamientos, las uni- 
dades experimentales y otros factores importantes para llevar a cabo la investigación. 

12.2. Las estadísticas para accidentes indican que alrededor de dos terceras partes de los ac- 
cidentes automovilísticos de consecuencias fatales en Estados Unidos son causados por 
conductores en estado de ebriedad. Supoga que usted es comisionado para investigar el 
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grado en el que el alcohol afecta la habilidad de las personas para desempeñar fun- 
ciones de rutina al conducir un automóvil. Descríbase con gran detalle un diseño esta- 
dístico para lograr esta tarea e indiquese cómo debe llevarse a cabo este experimento. 

12.3. Una compañía de seguros desea determinar si existen diferencias discernióles en el 
número de días promedio que los pacientes que padecen una misma enfermedad per- 
manecen en cuatro grandes hospitales de cierta área metropolitana. La compañía tam- 
bién está interesada en detectar cualquier efecto debido al sexo de los pacientes. 
Descríbase con detalle un diseño estadístico para lograr este objetivo. Asegúrese de 
identificar la naturaleza de cada factor, ya sea como de efecto fijo o aleatorio; escríbase 
el modelo y establézcase la hipótesis por probar. 

12.4. Una operación de llenado tiene tres máquinas idénticas que se ajustan para vaciar una 
cantidad específica de un producto en recipientes de igual tamaño. Con el propósito de 
verificar la igualdad de las cantidades promedio vaciadas por cada máquina, se toman 
muestras aleatorias, en forma periódica, de cada una. Para un periodo particular, se 
observaron los datos que aparecen en la tabla 12.18. 

TABLA 12.18 Datos de la muestra para el ejercicic 12.4 

Máquina 
ABC 



16 18 19 

15 19 20 

15 19 18 

14 20 20 

19 19 

19 



a) Calcúlese y - y y verifiqúese que la suma de estas desviaciones para toda iyj es 
cero. 

b) Estímese r, para toda j, y verifiqúese que la suma de n¡(y.j - y.) sobre todas las y 
es cero. 

c) Calcúlese, en forma directa, cada una de las tres sumas de cuadrados dadas en la 
expresión 12.8 para verificar que STC = SCTR + SCE. 

d) ¿Existen algunas diferencias estadísticamente significativas en las cantidades pro- 
medio vaciadas por las tres máquinas? Empléese a = 0.05. 

12.5. En el ejercicio 12.4, supóngase que se divide cada observación entre 10. Demuéstrese si 
esta operación tiene algún efecto con las respuestas a las partes c y d. 

12.6. Para el ejercicio 12.4, construyanse constrastes a su elección y empléese el método de 
Scheffé para determinar si éstos son estadísticamente significativos. 

12.7. Se pide a un laboratorio de prueba independiente que compare la durabilidad de 
cuatro diferentes marcas de pelotas de golf. El laboratorio propone un experimento en 
el que se seleccionan, en forma aleatoria ocho pelotas por cada fabricante y se ponen 
en una máquina que golpea cada pelota con una fuerza constante. La medición de inte- 
rés es el número de veces que la máquina golpea la pelota antes de que su recubrimien- 
to externo se rompa. En la tabla 12.19 se encuentra la información que se obtuvo al lle- 
var a cabo el experimento. 
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TABLA 12.19 Datos de la muestra para el ejercicio 12.7 







Marca 






A 


B 




C 


D 


205 


242 




237 


212 


229 


253 




259 


244 


238 


226 




265\ 


229 


214 


219 




229 


272 


242 


251 




218 


255 


225 


212 




262 


233 


209 


224 




242 


224 


204 


247 




234 


245 



a) ¿Existe alguna razón para creer que la durabilidad promedio es diferente para 
cada una de las cuatro marcas? Úsese a — 0.05. 

b) ¿Existe alguna razón p~ra <^idar de la suposición de que las varíanzas de los errores 
son iguales? 

12.8. Para determinar si existen diferencias en la cosecha promedio de tres variedades de 
maíz, se dividió en tres partes iguales un área para siembra. A su vez, cada una de estas 
partes se subdivide en otras cinco iguales entre sí, y se siembra cada una con una va- 
riedad de maíz. En el momento de la cosecha, la medición de interés es el número de 
toneladas por acre. La tabla 12.20 es una tabla de análisis de varianza incompleta para 
este problema. 

TABLA 12.20. Tabla parcial ANOVA para el ejercicio 12.8 

Fuente gl SC CM Valor F 

Tratamientos 64 

Error 

Total 100 

a) Escríbase el modelo para este problema. 

b) ¿Se está satisfecho con las suposiciones? Hágase un comentario. 

c) Establézcase la hipótesis nula por probar. 

d) Complétese la tabla ANOVA y determínese si puede rechazarse la hipótesis nula 
para un nivel a = 0.01. 

12.9. Se desea determinar si la cantidad de carbón empleado en la fabricación de acero 
tiene algún efecto en la resistencia a la tensión de éste. Se investigaron cinco diferentes 
porcentajes de carbón: 0.2, 0.3, 0.4, 0.5 y 0.6%. Para cada porcentaje de carbón se 
seleccionaron, en forma aleatoria del mismo iote, cinco muestras de acero y se mi- 
dieron tas resistencias a la tensión. Se obtuvo la información que se muestra en la tabla 
12.21, donde la tensión se encuentra en kilogramos por centímetro cuadrado. 

á) Con base en esta información, determínese si el porcentaje de carbón tiene un 
efecto estadísticamente significativo sobre la resistencia a la tensión del acero. Úsese 
a = 0.01. 

b) Si la respuesta a ta parte a es afirmativa, propónganse los contrastes relevantes y 
pruébese su significancia estadística. 



m 
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TABLA 12.21 Datos de la muestra para el ejercicio 12.9 







Contenido de carbón 






0.2% 


0.3% 


0.4% 


0.5% 


0.6% 


1240 


1420 


1480 


1610 


1700 


1350 


1510 


1470 


1590 


1790 


1390* 


1410 


1520 


1580 


1740 


1280 


1530 


1540 


1630 


1810 


1320 


1470 


1510 


1560 


1730 



12.10. En el ejercicio 12.9, ¿existe alguna razón para dudar de la suposición de varianzas 
iguales? 

12.11. Se seleccionó una muestra al azar de un número de presidentes de compañías, en 
cuatro diferentes áreas geográficas de Estados Unidos, con el propósito de determinar 
si el área tiene algún efecto sobre los ingresos anuales de estos altos ejecutivos. Se ob- 
servaron los salarios anuales que se muestran en la tabla 12.22. Con la información 
uada, proporciónese un argumento, ya sea en contra o a favor, de si debe utilizarse la 
técnica del análisis de varianza para determinar si el área tiene algún efecto sobre el 
ingreso anual. Trátese de dar un apoyo sustancial en cualquiera de los dos casos. 

TABLA 12.22 Datos de la muestra para el ejercicio 12.1 1 (miles de dólares) 

Área 
Noreste Oeste medio Sureste Oeste 

140 93 78 85 

125 135 112 72 

95 68 57 97 

110 53 97 105 

59 115 52 62 



12.12. En una planta industrial se desea determinar si diferentes trabajadores con el mismo 
nivel de habilidad tienen algún efecto sobre el número de unidades que se espera que 
produzcan durante un periodo fijo. Se lleva a cabo un experimento en el que se selec- 
cionan al azar cinco trabajadores y se observa el número de unidades que cada uno 
produce en seis periodos con la misma duración, produciéndose los resultados que se 
encuentran en la tabla 12.23. 



TABLA 12.23 Datos de la muestra para el ejercicio 12.12 







Trabajador 






1 


2 


3 


4 


5 


45 


52 


39 


57 


48 


47 


55 


37 


49 


44 


43 


58 


46 


52 


55 


48 


49 


45 


50 


53 


50 


47 


42 


48 


49 


44 


57 


41 


55 


52 
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a) Escríbase el modelo para este problema y expliqúese cada término. 

b) Establézcase la hipótesis nula por probar. 

c) Determínese si puede rechazarse la hipótesis nula para un nivel a = 0.05. 

d) ¿Qué fracción de la variánza en el número de unidades producidas es atribuible a di- 
ferencias entre los trabajadores? 

12.13. Desde el incremento en los precios de la gasolina se han desarrollado varios dispositi- 
vos, los cuales se colocan en los carburadores de los automóviles, con el propósito de 
aumentar el rendimiento de éstos. Una empresa selecciona tres de los dispositivos más 
populares para someterlos a prueba. La empresa desea compararlos con los carburado- 
res estándar, con el propósito de determinar si existe un incremento apreciable de 
millas por galón de gasolina con el uso de estos dispositivos. La compañía selecciona 
cinco tipos de automóviles para el experimento. Para controlar la variación, se planea 
utilizar el mismo conductor para todo el experimento. 

TABLA 12.24 Datos de la muestra para el ejercicio 12.13 (millas por galón) 





Carburador 








Automóvil 


estándar 


Dispositivo A 


Dispositivo B 


Dispositivo C 


1 


18.2 


18.9 


19.1 


20.4 


2 


27.4 


27.9 


28.1 


29.9 


3 


35.2 


34.9 


35.8 


38.2 


4 


14.8 


15.2 


14.9 


17.3 


5 


25.4 


24.8 


25.6 


26.9 



a) Hágase un bosquejo del plan específico para realizar este experimento. 

b) Supóngase que se observan los datos que se encuentran en la tabla 12.24. Escríbase 
el modelo y establézcase la hipótesis nula por probar. ¿Puede rechazarse la hipótesis 
nula para un nivel a = 0.05. 

c) Si se rechaza la hipótesis nula de la parte b, construyanse por lo menos dos contras- 
tes relevantes y pruébese su significancia estadística. 

12.14. En el ejercicio 12.13, supóngase que no se ha considerado el automóvil como una fuen- 
te viable de variación en el rendimiento observado y muéstrese si esta omisión tiene al- 
gún efecto con la respuesta a la parte b. 

12.15. Los cigarrillos producen cantidades apreciables de monóxido de carbono. Cuando se 
inhala el humo del cigarrillo, el monóxido de carbono se combina con la hemoglobina 
para formar carboxihemoglobina. En un estudio reciente,* los investigadores deseaban 
determinar si una concentración apreciable de carboxihemoglobina reduce la toleran- 
cia al ejercicio en aquellos pacientes que sufren de bronquitis crónica y enfisema. Se se- 
leccionaron siete** de estos pacientes y, en un ambiente controlado, se les pidió que 
caminaran durante 12 minutos respirando una de las siguientes cuatro mezclas gaseo- 
sas: aire, oxígeno, aire más monóxido de carbono (CO) u oxígeno más monóxido de 
carbono. La cantidad de monóxido de carbono respirado fue suficiente para elevar la 
concentración de carboxihemoglobina de cada sujeto en 99b. Para controlar el consu- 
mo de monóxido de carbono, se pidió a los siete fumadores que dejaran de fumar 12 

*P. M. A.Calverly, R. J. E. Leggett, and D. C. Flenley, Carbón monoxide andexerci.se tolerante 
in chronic bronchitis and emphysema, Brit. Med. J. 283 (1981), 877-880. 
El estudio completo se llevó a cabo con 15 sujetos. 
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horas antes del experimento. Los datos que figuran el la tabla 12.25 representan las dis- 
tancias caminadas por los sujetos en 12 minutos para cada condición. 

TABLA 12.25 Datos de la muestra para el ejercicio 12.15 (en litros) 



Sujeto 



Aire 



Mezcla gaseosa 
Oxígeno Aire + 



CO 



1 


835 


874 


750 


2 


787 


827 


755 


3 


724 


738 


698 


4 


336 


378 


210 


5 


252 


315 


168 


6 


560 


672 


558 


7 


336 


341 


260 



Oxigeno + CO 



854 
829 

726 
279 
336 
642 
336 



a) Escribase el modelo para este problema. 

b) ¿Puede rechazarse la hipótesis nula de que no existe algún efecto, debido a la 
mezcla de gas, en la distancia caminada durante el lapso de 12 minutos para un 
nivel de a = 0.05 ? 

c) Llévese a cabo una prueba F conservadora para la hipótesis nula. ¿Es la conclusión 
diferente a la de la parte bt 

d) Si la respuesta a la parte b es sí, construyanse los contrastes pertinentes y empléese 
el método de Scheffé para determinar si éstos son estadísticamente significativos. 

12.16. Se desea determinar si existen diferencias apreciables en los precios promedio entre 
cuatro grandes supermercados en una ciudad dada. De los artículos de la misma marca 
que se venden con regularidad, se seleccionan al azar 10 y se observan sus precios uni- 
tarios en cada supermercado. Se obtiene la información que figura en la tabla 12.26. 

a) Escríbase el modelo para este problema. 

b) Establézcase una hipótesis nula apropiada y determínese si ésta puede rechazarse 
para un nivel de a = 0.01 . 

c) Determínense todos los residuos y hágase la gráfica de éstos para cada tratamiento y 
para cada bloque. Hágase un comentario sobre sus resultados. 



TABLA 12.26 Datos de la 


muestra para el 


ejercicio 


12.16 (en dólares) 




Artículo 


A 


Supermercado 
B C 


D 


1 


3.29 


3.42 




3.27 


3.35 


2 


0.59 


0.65 




0.59 


0.60 


3 


1.25 


1.29 




1.25 


1.27 


4 


4.35 


4.59 




4.29 


4.49 


5 


0.89 


0.95 




0.89 


0.89 


6 


1.85 


1.79 




1.89 


1.89 


7 


0.95 


0.89 




0.89 


0.90 


8 


0.75 


0.79 




0.69 


0.79 


9 


2.35 


2.35 




2.39 


2.39 


10 


1.49 


1.55 




1.55 


1.49 



12.17. En el ejemplo que sirvió como introducción en la sección 12.6, supóngase que se selec- 
cionan en forma aleatoria 1 2 componentes del mismo lote y en grupos de tres se asig- 
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nan a las cuatro combinaciones de hornos y temperaturas. Los tiempos de duración de 
los componentes se encuentran en la tabla 12.27. 

TABLA 12.27 Datos de la muestra para el 
ejercicio 12.17 (en horas) 

O, O z 



6.29 


5.95 


6.38 


6.05 


6.25 


5.89 


5.80 


6.32 


5.92 


6.44 


5.78 


6.29 



a) Escríbase el modelo apropiado para este problema. 

b) Establézcase la hipótesis por probar. 

c) Determínese la tabla del análisis de varianza y obténganse conclusiones apropiadas. 
Empléese a = 0.05. 

12.18. En el ejercicio 12.3, supóngase que se obtuvo la información proporcionada en la tabla 
12.28 para pacientes seleccionados al azar, que padecen la misma enfermedad. 

TABLA 12.28 Datos de ta muestra para el ejercicio 12.18. Duración de la hospitalización en días en 
cuatro hospitales. 





Hospital A 


Hospital B 


Hospital C 


Hospital D 


Hombres 


7 


9 


10 


6 




10 


9 


8 


7 




8 


12 


12 


6 




11 


14 


13 


9 


Mujeres 


9 


II 


13 


8 




12 


12 


11 


9 




12 


14 


14 


8 




11 


13 


14 


10 



a) Determínese qué efectos son estadísticamente discernibles a un nivel de a = 0.0! . 

b) Determínense todos los residuos y hágase la gráfica de éstos para cada hospital. 
¿Qué conclusión puede dar? 

12.19. El objetivo de un experimento de agricultura fue determinar si existían diferencias apre- 
ciables en la cantidad de trigo cosechado, de entre cuatro variedades y tres tipos de fer- 
tilizantes. Para el experimento se encontró una área muy grande de siembra en la que 
las condiciones del suelo eran, prácticamente, homogéneas. El área fue dividida en 12 
zonas de igual tamaño para las 12 combinaciones de variedad de trigo y tipo de fertili- 
zante. Para medir el error experimental, cada zona se dividió a su vez en cuatro y cada 
una de éstas recibió el mismo tratamiento. Las tres" clases de fertilizante se selecciona- 
ron, en forma aleatoria, de entre un número relativamente grande de fertilizantes, pero 
el interés no se extendió más allá de las cuatro variedades de trigo seleccionadas para el 
experimento. En el momento de la cosecha se observaron los datos que aparecen en la 
tabla 12.29. 



, 
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TABLA 12.29 Datos de la muestra para el ejercicio 12.19 
(toneladas por acre) 







Variedad de trigo 




Fertilizante 


A 


B 


C 


D 


1 


35 


45 


24 


55 


l 


26 


39 


23 


48 




38 


39 


36 


39 




20 


43 


29 


49 


2 


55 


64 


58 


68 




44 


57 


74 


61 




68 


62 


49 


60 




64 


61 


69 


75 


3 


97 


93 


89 


82 




89 


91 


98 


78 




92 


82 


85 


89 




99 


98 


87 


92 



a) Escríbase el modelo apropiado para este problema. 

b) Establézcase la hipótesis nula por probar. 

c) Determínese la tabla de análisis de varianza y obténganse las conclusiones apro- 
piadas. Úsese a = 0.05. 

12.20. En el ejercicio 12.19, ¿Cómo puede cambiar la respuesta a la parte c, si 

a) ¿Se supone que las variedades son de efectos aleatorios, y los tipos de fertilizante 
son de efectos fijos? 

b) ¿Se supone que ambos son de efectos fijos? 

c) ¿Se supone que ambos son de efectos aleatorios? 



CAPITULO TRECE 



Análisis de regresión: 
el modelo lineal simple 



13.1 Introducción 

En el capítulo anterior se desarrollaron los criterios básicos para el diseño estadístico 
de experimentos. En este capítulo se examinarán las asociaciones cuantitativas entre 
un número de variables, lo que en la terminología estadística se conoce como análisis 
de regresión. 

Aunque en muchas disciplinas se están realizando experimentos diseñados en 
forma estadística, la precisión en la comparación que en forma general se requiere, 
evita el empleo de estos diseños en muchas situaciones. Investigar el efecto simultá- 
neo de varios factores con base en las técnicas del análisis de varianza requiere de la 
suposición de que los datos se han colectado en arreglos balanceados y que se lleva- 
ron a efecto los procedimientos de aleatorización adecuados. En forma obvia, lo an- 
terior es deseable si puede cumplirse, pero muchas veces es impráctico. En realidad, 
a lo que en general se enfrenta el experimento es a un conjunto de datos que de mane- 
ra común, no espera que hayan sido observados bajo condiciones estrictamente con- 
troladas y los que, salvo en ciertas ocasiones, no contienen ninguna réplica real que 
permita una estimación apropiada del error experimental. Bajo estas condiciones, 
los métodos más apropiados son el de mínimos cuadrados y el análisis de regresión, 
y no los del análisis de varianza. 

El propósito de este capítulo radica en proporcionar los conceptos y metodología 
básicos para extraer de grandes cantidades de datos las características principales de 
una relación que no es evidente. De manera específica, se examinarán técnicas que 
permitan ajustar una ecuación de algún tipo al conjunto de datos dado, con el pro- 
pósito de obtener una ecuación empírica de predicción razonablemente precisa y que 
proporcione un modelo teórico que no está disponible. Se supondrá la existencia de 
un conjunto de n mediciones y, , y 2 , -•, y„ de una variable respuesta Y, las cuales 
se han observado bajo un conjunto de condiciones experimentales (jc, , x 2 , ..., x k ) 
que representan los valores de k variables de predicción. El interés recae en determi- 
nar una función matemática sencilla, por ejemplo un polinomio que describa, en 
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forma razonable, el comportamiento de la variable respuesta, dados los valores de 
las variables de predicción. Nótese que la ecuación que se obtiene por esta forma 
puede tener algunas limitaciones con respecto a su interpretación física; sin embar- 
go, en un medio empírico, será muy útil si puede proporcionar una adecuada capaci- 
dad de predicción para la respuesta en el interior de una región especificada de las 
variables de predicción. 

A pesar de que no se encuentra problema alguno con las designaciones comunes de 
variable dependiente e independiente para Y y x, respectivamente, se preferirá deno- 
minarlas como variable de respuesta y de predicción, ya que en la regresión sólo 
puede asociarse un valor de Y con uno de predicción x; no es posible establecer una 
relación causa-efecto entre la Y - y las x. Algunos ejemplos proporcionarán una idea 
del por qué obtener una relación causa-efecto se encuentra más allá del alcance del 
análisis de regresión. De manera obvia, existe una relación entre la altura y el peso 
de los seres humanos, pero ¿implica esta relación, por ejemplo, que pueda cambiar 
ia altura de una persona si se modifica su peso? También se tiene una relación entre la 
cantidad de gas bruto que se consume en cierta área de alguna ciudad y la tem- 
peratura atmosférica promedio, pero ¿significa esto que es posible aumentar la 
temperatura mediante la reducción del consumo de gas? También puede existir algu- 
na relación entre un factor económico en particular y un ciclo financiero, pero 
¿implica lo anterior que el factor económico "causa" el ciclo financiero? 

La esencia de los ejemplos anteriores está en el hecho de que el análisis de regre- 
sión sólo descubre una asociación entre la variable de respuesta y las variables de 
predicción, en lugar de detectar una relación causa-efecto. La causalidad implica 
que un cambio en las x causará uno correspondiente en la variable respuesta. Por 
ejemplo, cuando se calienta un metal éste se expande; en este caso no existe ninguna 
duda de que establecer una relación causa-efecto es muy importante. Pero en forma 
desafortunada, lo anterior generalmente no puede llevarse a cabo con base en un 
análisis estadístico, a menos que se efectúe un experimento rigurosamente controla- 
do. Un ejemplo de lo anterior, es la relación que existe entre fumar y el cáncer pul- 
monar. La evidencia que se tiene resulta abrumadora con respecto a que el fumador 
crónico (predicción) está estadísticamente ascociado con una alta incidencia de cán- 
cer pulmonar (respuesta). La industria cigarrera argumenta, en contra de estos 
hallazgos, que todavía no existe una relación de tipo causal entre fumar mucho y la 
incidencia de cáncer pulmonar. 

El enfoque que se utilizará en este capítulo, así como en el siguiente, se limitará a 
establecer el grado de asociación que existe entre variables, sin tomar en cuenta la 
noción de causalidad. En este capítulo se examinarán los fundamentos del análisis 
de regresión para el modelo con una sola variable de predicción. En el capítulo 14 se 
estudiará lo que se conoce como el modelo lineal general en el que se supone que una 
respuesta dada es una función de varias variables de predicción. 



13.2 El significado de la regresión y suposiciones básicas 

Si los métodos de regresión son tan útiles en la práctica, debe comprenderse su signi- 
ficado y las suposiciones bajo las cuales se han desarrollado. Las técnicas de regre- 
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sión proporcionan medios legítimos a través de los cuales pueden establecerse aso- 
ciaciones entre las variables de interés en las cuales la relación usual no es causal. La 
palabra "regresión" se usó por primera vez en este contexto por Francis Galton 
(1822-191 1) en sus estudios biológicos sobre la herencia. En ellos se notó que las ca- 
racterísticas promedio de la siguiente generación de un grupo en particular tendían a 
moverse en la dirección de las características promedio de la población general, más 
que hacia las de la generación previa de ese grupo. Esta tendencia fue referida como 
una regresión hacia la media de la población. 

De manera básica, la regresión tiene dos significados: uno surge de la distribu- 
ción conjunta de probabilidad de dos variables aleatorias; el otro es empírico y nace 
de la necesidad de ajustar alguna función a un conjunto de datos. Para ilustrar el 
primer significado se tratará de predecir el salario anual de un profesionista dado 
el número de años que han transcurrido desde su graduación. Sea X el número de 
años y y el salario anual. Debe ser obvio que para un valor dado de x es imposible 
predecir, de manera exacta, el salario anual de una persona en particular. Sin embar- 
go, es posible predecir el salario promedio de todos aquellos individuos para los que 
el número de años x que han transcurrido desde su graduación es el mismo. En otras 
palabras, para cada valor de x existe una distribución de ingresos anuales y lo que 
se busca es la media de esa distribución, dado x. La gráfica de la media condicional 
E( Y\x) como una función de x recibe el nombre de curva de regresión de y sobre X. 
De esta forma, si/U, >)es la función de densidad conjunta de probabilidad de A" y 
y y si f(y\x) es la función de densidad condicional de Y dado x, se define la curva 
de regresión como 



Y\x)=\ 



E(Y\x) = yf(y\x)dy. 



Ejemplo 13.1 Considérese la función de densidad conjunta de probabilidad dada 
por 

Í2x 0<.v<>'< 1, 
f(x, y) = 

l para cualquier otro valor 

Obténgase la curva de regresión de Y sobre X. 
Dado que 



entonces 



f(y\x) =f{x,y)lf x (x), 
fx(x) = J /U, v)</v = J Ixdy = 2.víl - x). 



/(.v|.v) = — — = . 

2.v(l - .v) 1 - .v 
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Por lo tanto, la curva de regresión es 

E{Y\x) = jjl -xV'ydy = (1 + x)/2, 

la cual es una línea recta con pendiente e intersección igual a 1/2. 

El segundo significado de la regresión es mucho más práctico que el primero. En 
él no se tienen los elementos necesarios para determinar la curva de regresión tal 
como se hizo en el ejemplo 13.1. No obstante, dado un conjunto de datos, puede 
asumirse una forma funcional para la curva de regresión y entonces tratar de ajustar 
ésta a los datos. En estas situaciones, la variable respuesta es una variable aleatoria 
cuyos valores se observan mediante la selección de los valores de las variables de pre- 
dicción en un intervalo de interés. Por lo tanto, las variables de predicción no se con- 
sideran como variables aleatorias, sino que éstas son un conjunto de valores fijos 
que representan los puntos de observación para la variable respuesta. El modelo de 
regresión propuesto debe ser relativamente sencillo y deberá contener pocos pará- 
metros. Un procedimiento muy útil para la selección inicial cuando se tiene sólo una 
variable de predicción es granear la variable respuesta contra la variable de predic- 
ción. Si esta gráfica revela una tendencia lineal, deberá suponerse un modelo de 
regresión lineal. Si es evidente alguna curvatura, deberá suponerse un modelo 
cuadrático o de mayor grado para ajustarse a los datos. 

Una vez que se ha seleccionado el modelo, la siguiente tarea es la de obtener esti- 
maciones para los parámetros que intervienen en el mismo. Una técnica muy acepta- 
da para este propósito es el método de mínimos cuadrados (MC). Este método en- 
cuentra las estimaciones para los parámetros en la ecuación seleccionada mediante la 
minimización de la suma de los cuadrados de las diferencias entre los valores obser- 
vados de la variable respuesta y de aquéllos proporcionados por la ecuación de pre- 
dicción. Estos valores se conocen como los estimadores por mínimos cuadrados 
(EMC) de los parámetros. Los estimadores por mínimos cuadrados poseen ciertas 
propiedades deseables, pero para determinarlas es necesario formular las siguientes 
suposiciones: 

1 . Se ha seleccionado la forma correcta de la ecuación de regresión. Esto impli- 
ca que cualquier variabilidad en la variable respuesta que no pueda explicarse me- 
diante el empleo de la ecuación de regresión, se debe a un error aleatorio. Por 
ejemplo, se sabe que la distancia d que recorre un objeto en un tiempo r, está dada 
por la siguiente relación 

d = A> + /3,t, 

donde /3, es la velocidad promedio y /3 es la posición del objeto para t = 0. Si no 
fuese posible medir d en forma precisa para un valor dado de t, pero se observó un 
valor 

y = d + s, 

donde e es el error aleatorio, se ha seleccionado la forma correcta de la ecuación de 
regresión y el problema se reduce a estimar los valores de /3 y/8, .Sin embargo, rara 
es la vez que el problema resulta ser tan sencillo. 
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Por ejemplo, si se tiene interés en predecir la cantidad de ozono que se encuentra 
en la estratosfera, como una función de los niveles de concentración de los constitu- 
yentes químicos de ésta en cierto momento del día, la ecuación por seleccionar será, 
en primera instancia, una conjetura. El error no puede considerarse como puramen- 
te aleatorio ya que pueden existir variaciones sistemáticas por causa de errores en el 
modelo. Algunos de los valores de la variable de respuesta proporcionados por la 
ecuación de predicción estarán sesgados ya que las estimaciones de los parámetros 
también se encuentran sesgadas. 

2. Los datos que se observan son comunes en el sentido en que constituyen una 
muestra representativa de un medio acerca del cual el investigador desea generalizar. 
Si el investigador sabe que los datos no son representativos, el comportamiento ge- 
neral del mecanismo puede encontrarse más allá del alcance de los datos. 

3 . Los valores observados de la variable respuesta no se encuentran estadística- 
mente correlacionados. Se supone que cada valor observado está constituido por un 
valoi re J y una componente aleatoria. La componente aleatoria consiste en una va- 
riable aleatoria no observable; entonces la covarianza entre cualesquiera dos observa- 
ciones Y ¡ y y,, o entre los correspondientes errores aleatorios e, y e¡, es cero para 
toda f j. 

4. Para toda /' = 1, 2 ...n, la media de e¡ es cero y la varianza de e¡ es <r 2 . Esta 
última recibe el nombre de varianza del error y, generalmente, no es conocida. 
Dado que las variables de predicción no son variables aleatorias, la varianza de Y¡ 
también es cr 2 para toda i y de esta forma es independiente del punto de observa- 
ción. Si no es posible formular la suposición de que la varianza es constante para las 
observaciones de la variable respuesta, generalmente se emplea el método de míni- 
mos cuadrados con factores de peso. Este tema se estudiará con cierto detalle en el 
capítulo 14. 

5. Los puntos de observación o los valores de las variables de predicción son 
fijos o se seleccionan con anticipación y se miden sin error. Para muchas situaciones 
prácticas, ambas condiciones no se cumplen. Afortunadamente, el método de míni- 
mos cuadrados sigue siendo válido siempre y cuando los errores en los valores de las 
x sean pequeños al compararse con los errores aleatorios y dado que éstos no depen- 
dan de los parámetros del modelo. 

A manera de comentario final sobre las suposiciones del procedimiento MC, se 
considerarán sólo mínimos cuadrados lineales, donde la palabra "lineal" significa 
que el modelo seleccionado es lineal en los parámetros. La frase "lineal en los pará- 
metros" significa que ningún parámetro en el modelo aparece como un exponente o 
es multiplicado por o dividido entre cualquier otro parámetro. Por ejemplo, los mo- 
delos 

Y = fa + fax + e, 

Y = /3 + fax + fax 2 + e, 
Y= fa + faln(x) + e, 

Y = fa + fax, + fax 2 + fax y x 2 + e 
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son lineales en los parámetros /3 . /3i, /3 2 > y &> pero el modelo 

Y = /3 exp(/3,jr) + E 

no lo es debido a que el parámetro /8| aparece como un exponente. 

13.3 Estimación por mínimos cuadrados para el modelo lineal simple 

En esta sección se estudiará la estimación por mínimos cuadrados para el modelo li- 
neal simple en el que sólo se tiene una variable de predicción, y se supone una 
ecuación de regresión lineal. Por ejemplo, los estudiantes universitarios que apren- 
den más rápido tienen mejores calificaciones promedio (CP) y por lo tanto, mejores 
oportunidades de obtener buenos empleos después de graduarse. Supóngase que los 
dates q- - .e se encuentran en la tabla 13.1 representan las calificaciones promedio de 
15 recién graduados y sus correspondientes salarios iniciales. 

Para este ejemplo, la variable respuesta es el salario inicial y la variable de pre- 
dicción potencial es la calificación promedio. Estas últimas se seleccionaron de tal 
manera que reflejen un amplio intervalo. Se desea determinar una ecuación de re- 
gresión para el salario inicial promedio como una función de la calificación prome- 
dio. Dado que se ha propuesto sólo una variable de predicción, grafícar los datos 
puede ser útil en la selección inicial de un modelo de regresión. La gráfica de los sala- 
rios iniciales contra las calificaciones promedio se muestra en la figura 13.1. Debe 
notarse que esta gráfica fue realizada por un paquete estadístico para computadora 
conocido como "minitab". Aunque no es tan sofisticado como SAS, Minitab es 
muy fácil de usar y se recomienda para llevar a cabo análisis preliminares de regre- 
sión, entre otras aplicaciones. 



TABLA 13.1 Datos de la muestra para un 
modelo lineal simple (miles de dólares) 



CP 


Salario inicial 


2.95 


18.5 


3.20 


20.0 


3.40 


21.1 


3.60 


22.4 


3.20 


21.2 


2.85 


15.0 


3.10 


18.0 


2.85 


18.8 


3.05 


15.7 


2.70 


14.4 


2.75 


15.5 


3.10 


17.2 


3.15 


19.0 


2.95 


17.2 


2.75 


16.8 
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'i 18.0+ * 



16.0 + 



#• 

* 



# 



14.0 + 



+ + + + + + 

2.60 2.80 3.00 3.20 3.40 3.60 

Calificación promedio 



TABLA 13.1 Salario inicial contra calificación promedio 



A pesar de que esta gráfica muestra una gran dispersión,* se observa una tenden- 
cia lineal. De acuerdo con lo anterior se supondrá un modelo de la forma 

Y, = j8„ + /3,.r, + e¡ i = 1.2 n. (13.1) 

donde Y¡ es la /-ésima observación de la variable respuesta, la cual corresponde al /- 
ésimo valor ,v, de la variable de predicción, e, es el error aleatorio no observable aso- 
ciado con Y, ; y /3„ y /3, son los parámetros desconocidos que representan la inter- 
sección y la pendiente, respectivamente. La expresión (13.1) se conoce como modelo 
lineal simple, debido a que es lineal en los parámetros y se tiene sólo una variable de 
predicción. 

Cada observación Y¡ es una variable aleatoria que es la suma de dos componen- 
tes; el término no aleatorio Ai + Pi.v,-, y la componente aleatoria k, . Si e, fuera un 

* Por esta razón, este tipo de gráfica se conoce como gráfica de dispersión. 
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valor igual a cero, la observación Y¡ se encontraría precisamente sobre la línea de re- 
gresión p + /},*,. Por lo tanto, e, es la distancia vertical de la observación a la 
línea de regresión. Dado que se supone 

E(e¡) = 0, Var(e¡) = cr 2 i = 1, 2, ..., n, 

y 

Cov(e¡, ej) = / ¿j; 
entonces 

Wi) = £(&> + /8i*, + e¡) = A, + fitx¡, 
Cov{Y¡, Yj) =.or 2 - ifj, 

y 

Var(K,) = Var(fa + p,x, + e¡) = Var(e,) = c 2 . 

El último resultado surge del hecho de que la varianza de una variable aleatoria 
no varia con respecto a la localización; en este caso, el corrimiento en localización 
está proporcionado por el término no aleatorio p + /3 , x, . Por lo tanto, en términos 
reales, lo que se supone es que para cada calificación promedio x existe una distribu- 
ción de probabilidad para los salarios iniciales cuya media es una función lineal de x 
y cuya varianza es la misma para toda x. El modelo proporcionado por (13.1) debe 
considerarse sólo como una selección inicial para la forma funcional de la curva de 
regresión. Con base en análisis más apropiados, los cuales se examinarán más ade- 
lante, puede ser necesario hacer ajustes y éstos a su vez pueden dar como resultado 
una ecuación final de predicción diferente de la del modelo inicial. 

Para obtener los estimadores de mínimos cuadrados de /3 y 0, , se generalizará 
un conjunto de datos consistente en n pares (x,, y t ), (x 2 , yz), ■■-, (x„, y„), donde 
los valores de y son las observaciones de la variable aleatoria respuesta. El método 
de mínimos cuadrados considera la desviación de la observación Y¡ de su valor 
medio y determina los valores de /3 y /3, que minimizan la suma de los cuadrados 
de estas desviaciones. La /-ésima desviación o error es 

e, = Y,- (j8o + p t x¡), (13.2) 

y la suma de los cuadrados de los errores es 

n n 

2e?= 2(^-/8 -j3 1 Jc / ) 2 . (13.3) 

í=i i=i 

Los estimadores de mínimos cuadrados de /3 y Pi se obtienen mediante la diferen- 
ciación de (13.3) con respecto a p y p y y después al igualar cada derivada parcial 
con cero, es decir 

d -~T-= -2^ J {Y i -B í¡ -B x x l ) = 0, 
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y- 

^T = -2'Zx l (Y l -B -B l x l ) = 0, 

donde B y B x son los estimadores de mínimos cuadrados* de /3 y /3, , respectiva- 
mente. Al simplificar y distribuir las sumas en estas ecuaciones, se tiene 

n n 

2 r, = nB + B¡2 x, 

i= I í= 1 

y (13.4) 

n n n 

X j/^ = *o 2 */ + *■ 1x]. 

¡=\ ;=i í=i 

Las dos ecuaciones dadas por (13.4) se conocen como ecuaciones normales. 

Dadas las realizaciones y,, y 2 , .-, y„, las ecuaciones pueden resolverse para los 
estimados de mínimos cuadrados b y b x . Si se dividen ambos mienbros de la pri- 
mera ecuación entre n, se obtiene 

= b + b ¡ , 

n n 

entonces el estimador de mínimos cuadrados de )3o es 

n n 

2 y. S*< 

¿ = ^--¿,^- = y- b{x. (13.5) 

n n 

Al sustituir b en la segunda ecuación de (13.4) se obtiene 
la que, después de resolver para ¿, , se reduce a 

(¿ *')(:£») - 

Z -*,y Z (*-• - *)(y. _ >') 

¿, =^ ? = ^ . (13.6) 

* Muchos autores prefieren designar a los estimadores de mínimos cuadrados con letras cursivas minús- 
culas. I^ara mantener la consistencia de la notación con respecto a los capítulos anteriores se designará al 
estimador de mínimos cuadrados con una letra cursiva en mayúscula y el tipo en minúscula para el esti- 
mado MC. 
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Los valores dados por (13.5) y (13.6) son aquellos que minimizan la suma de los cua- 
drados de los errores. 

Dados los estimadores de minimos cuadrados B y B, para la intersección y la 
pendiente, respectivamente, la recta de regresión estimada para el modelo (13.1) es 

% , = fi + fi.jc, (13.7) 

donde Y¡ es el estimador para la media de la observación Y¡, la cual corresponde al 
valor x¡ de la variable de predicción. Nótese que si se sustituye (13.5) por B en 
(13.7) se obtiene una forma alternativa para la recta de regresión estimada, la cual 
se encuentra dada por 

Y¡=Y- fi,JE + B¡x¡ 

= Y + B { (x¡ - x). (13.8) 

Con base en (13.2), la diferencia entre la realización y, y el valor estimado y¡ es 
un estimador del correspondiente error. Este estimador se conoce como el i-ésimo 
residual y se denota por 



e¡ = y¡ - y i ■ 



(13.9) 



De nuevo, nótese que los residuos no son estimados en el sentido clasico de la esti- 
mación de parámetros (fijos), sino que son estimadores de los valores de las varia- 
bles aleatorias no observables e¡, los cuales se obtienen de la recta de regresión 
estimada. Los residuos e u e 2 , ..., e n son muy importantes debido a que proporcio- 
nan una abundante información sobre lo que puede faltar del modelo de regresión es- 
timado. Más adelante se darán más detalles con respecto a lo anterior. En este mo- 
mento se ilustrarán los pesos de cálculo para obtener la recta de regresión estimada para 
el modelo lineal simple empleando para ello los datos de los salarios. El propósito de 
esto radica en familiarizar al lector únicamente con el procedimiento de cálculo. De lo 
contrario, se puede hacer uso de algún paquete estadístico para computadora. Posterior- 
mente, se presentará un listado de computadora para este ejemplo. 

En la tabla 13.2, se incluyen los cálculos básicos necesarios para obtener los esti- 
madores de mínimos cuadrados de la intersección y la pendiente. Las últimas cuatro 
columnas de esta tabla no son necesarias para la determinación de b n y /?, , éstas se- 
rán empleadas después en otro contexto. 

Mediante el empleo de (13.5) y (13.6) el estimador de mínimos cuadrados para la 
pendiente es 

(45.6)(270.8) 



830.425 - 



.39.51 f45 - 6) " 



15 =8.12. 



15 
y el correspondiente estimado de mínimos cuadrados para la intersección es 

270.8 45.6 

/>«. = ~^~ - (8.12)— = - 6.63. 
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TABLA 13.2 Cálculos básicos para obtener los estimadores de mínimos cuadrados b 9 y b, 
(con base en los datos de salarios dados en la tabla 13.1) 













Salario 


Cuadrado del 


CP 


Salario 








estimado 


Residuo 


residuo 


x. 


y, 


x¡y¡ 


x'¡ 


y) 


y, 


y, - y¡ 


(y, - y,) 2 


2.95 


18.5 


54.575 


8.7025 


342.25 


17.32 


1.18 


1.3924 


3.20 


20.0 


64.000 


10.2400 


400.00 


19.35 


0.65 


0.4225 


3.40 


21.1 


71.740 


11.5600 


445.21 


20.98 


0.12 


0.0144 


3.60 


22.4 


80.640 


12.9600 


501.76 


22.60 


-0.20 


0.0400 


3.20 


21.2 


67.840 


10.2400 


449.44 


19.35 


1.85 


3.4225 


2.85 


15.0 


42.750 


8.1225 


225.00 


16.51 


-1.51 


2.2801 


3.10 


18.0 


55.800 


9.6100 


324.00 


18.54 


-0.54 


0.2916 


2.85 


18.8 


53.580 


8.1225 


353.44 


16.51 


2.29 


5.2441 


3.05 


15.7 


47.885 


9.3025 


246.49 


18.13 


-2.43 


5.9049 


2.70 


14.4 


38.880 


7.2900 


207.36 


15.29 


-0.89 


0.7921 


2.75 


15.5 


42.6¿5 


7.5625 


240.25 


15.70 


-0.20 


0.0400 


3.10 


17.2 


53.320 


9.6100 


295.84 


18.54 


-1.34 


1.7956 


3.15 


19.0 


59.850 


9.9225 


361.00 


18.95 


0.05 


0.0025 


2.95 


17.2 


50.740 


8.7025 


295.84 


17.32 


-0.12 


0.0144 


2.75 


16.8 


46.200 


7.5625 


282.24 


15.70 


1.10 


1.2100 


Totales 45.6 


270.8 


830.425 


139.5100 


4970.12 


270.79 


0.01 


22.8671 



De acuerdo con lo anterior, la ecuación estimada de regresión es 

y, = - 6.63 + 8.12 jc,. (13.10) 

Al intentar interpretar esta ecuación se tiene que los valores y, son los estima- 
dores para las medias de las distribuciones de probabilidad de los salarios iniciales 
correspondientes a las calificaciones promedio jc,-. Tener una intersección negativa 
resulta fastidioso, ya que, por ejemplo, si x = 0.5, y = -2.57, lo cual es absur- 
do. Pero las calificaciones promedio en este conjunto de datos varían de 2.70 a 3.60, 
por lo tanto, cualquiera que sea la validez que tiene la ecuación estimada de regresión 
al predecir los salarios iniciales promedio se mantiene, para todos aquellos valores de 
x que se encuentren entre 2.70 y 3.60. En la práctica, muchas veces se desea predecir 
la respuesta más allá del intervalo de valores de x para los cuales se obtuvo la 
ecuación estimada de regresión. Si un valor de x se encuentra muy cercano a este in- 
tervalo, la predicción tendrá cierta validez. De otra forma, ésta debe verse con 
mucho cuidado, ya que la ecuación de regresión estimada puede no ser apropiada 
para un intervalo de valores más amplio de la variable de predicción. 

La interpretación del valor estimado de la pendiente es directa. El incremento es- 
timado en el salario inicial promedio para cada aumento igual a una unidad de la ca- 
lificación promedio es de 8 120 dólares. 

La tercera columna de la derecha en la tabla 13.2, contiene los salarios prome- 
dio estimados para cada calificación promedio dada por (13.10). Por ejemplo, si 
x = 2.95, el salario inicial estimado promedio es v = -6.63 + 8.12(2.95) = (13.9). 
miles de dólares. Dado que el correspondiente valor observado es 18.5, de (13.9), 
e = 1 8.. 5 - 17.32 = 1.18 es el residuo para x = 2.95. En otras palabras, el valor resi- 



m 
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dual 1.18 es la distancia vertical que existe entre la observación 18.5 y el punto 
sobre la recta estimada de regresión para x = 2.95. Los otros residuos se obtienen de 
la misma manera y tienen significados similares. La figura 13.2 ilustra los residuos 
como distancias verticales desde la recta de regresión estimada. Dado que un residuo 
representa la cantidad en la que un valor estimado falla para predecir la media de la 
correspondiente observación aleatoria, entre mas grandes son las magnitudes de los 
residuos, mayor tenderá a ser el efecto de la componente aleatoria en el modelo. 

Recuérdese que la varianza o- 2 de la variable respuesta es igual a la varianza del 
error y ésta es constante para todos los valores de la variable de predicción. En gene- 
ral, dado que el valor de o- 2 no se conoce, puede obtenerse un estimador de éste a 
partir de los estimados de mínimos cuadrados b y b t . Dado que cada y¡ estima la 
media de Y¡, la diferencia y¡ - y¡ representa la desviación de Y¡ con respecto a su 
propia media. La suma de los cuadrados de estas diferencias, dividida entre una 
constante apropiada, es la forma en la que se determina una varianza. Pero estas di- 
ferencias son los residuos; po» ¡o tanto, la suma de los cuadrados de los residuos di- 
vidida entre una constante apropiada es un estimador deor 2 . La constante apropiada 
es n - 2, ya que se pierden dos grados de libertad al tener que estimar los dos pará- 
metros p y /3, antes de obtener y¡. El estimador de a 1 se denota como í 2 y está 
dado por 



2 (y, - yf 2 



e¡ 



5 2 = ^- 



n-l 



(13.11) 
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FIGURA 13.2 Residuos como distancias verticales desde la ecuación estimada de regresión 
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El estimador s 2 recibe el nombre de varianza residual o CME, y la raíz cuadrada 
positiva s se conoce como la desviación estándar residual. Para el ejemplo de los 
salarios iniciales, la varianza residual es s 2 = 22.8671/13 = 1.759. La varianza 
residual s 2 es una medida absoluta de qué tan bien se ajusta la recta estimada de re- 
gresión a las medias de las observaciones de la variable respuesta. Por lo tanto, en 
general entre más pequeño sea el valor de s 2 ,se ajustará mejor al modelo. Puede de- 
mostrarse que el estimador 5 2 es un estimador no sesgado de cr 2 con tal de que la 
forma del modelo de regresión sea la correcta. De otra manera, S 2 estima a 2 más 
una componente que es el sesgo causado por un error en el modelo. 

Cuando se obtiene una recta de regresión por el método de mínimos cuadrados, 
surgen cierto número de propiedades. Algunas de éstas son las siguientes: 

1. S?_, e,- = 0. 

2. 2r_, y/ = 2?_,jf.- 

3. 2?.,^, = 0. 

Se demostrará la propiedad 1 y se dejan las correspondientes demostraciones de las 
propiedades restantes al lector. Debe notarse que la propiedad 2 se obtiene de la pri- 
mer ecuación dada en (13.14) y la propiedad 3 de la segunda ecuación normal. Para 
la propiedad 1 , 

E e, = 2 (y, - y i) 

= 2 (v,- - b - b,x¡) 

= 2 y- ■ - nb o - i>,i.x¡ 

= ríy - n(y - ¿,I) - nb x x 

= 0. 

A causa de los errores de redondeo, la suma de los residuos dados en la tabla 13.2 
no es exactamente igual a cero. Además, dado que los estimadores MC se obtienen 
mediante la minimización de la suma de los cuadrados de los errores, para este 
ejemplo el valor mínimo es 22.8671. 



13.4 Estimación por máxima verosimilitud para 
el modelo lineal simple 

Puede emplearse el principio de máxima verosimilitud para estimar los parámetros 
desconocidos en el modelo lineal simple dado por (13.1). Recuérdese que los estima- 
dores de mínimos cuadrados se obtuvieron sin tener que especificar la distribución 
de probabilidad de los errores aleatorios e¡ . Si se supone que los e, son variables 
aleatorias independientes, normalmente distribuidas, con media cero y varianza <r 
para toda / = 1 , 2, ..., n, es posible obtener los estimadores de máxima verosimi- 
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litud de j8 , j8, , y cr 2 ,es decir, si además de las suposiciones previas se especifica que 
e¡ ~ N(0, o 2 ) para toda /' = 1, 2, ..., n, entonces cada Y¡ también se encuentra 
normalmente distribuida con media /8 + /?,jr, y varianza o 2 , dado que ésta es una 
función lineal de una variable aleatoria con distribución normal. Los estimadores de 
máxima verosimilitud se obtienen mediante la maximización de la función de verosi- 
militud dada por 



L(v,,y 2 , ...,y„;,8 ,,3|,o 2 ) = — exp 

V27TO- 



-¿(>i - & - ¿W 2 



V2 



exp 



\/íña 



,tt o 



exp 



-^(^-/So-jS,*,,) 2 



2o 



íI(>,-)3o-M) 2 



donde 

\n[L(p ,p l ,<r 2 )] = 



\ ln(2ir) - \ ln(cr 2 ) - -^ 

2 2 2o 



2 (y, ■- A>- /Si*,-) 2 



Al tomar las derivadas parciales con respecto a /8 , /8, , y o 2 , y después de igua- 
larlas a cero, puede demostrarse que los estimadores de máxima verosimilitud de 
¡3 y A son idénticos a los dados por (13.5) y (13.6), respectivamente, y el correspon- 
diente a o 2 está dado por 



2 (>.- - w 2 



~ 7 /= I 

o = 



(13.12) 



El estimador de máxima verosimilitud de o 2 es sesgado pero, para valores grandes 
de n, la diferencia entre éste y el estimador de mínimos cuadrados no es importante. 

El lector puede sorprenderse del por qué la necesidad de tratar con los estimado- 
res de máxima verosimilitud, si éstos son iguales a los estimadores de mínimos cua- 
drados. Una de estas razones es que los estimadores de máxima verosimilitud tienen 
propiedades deseables de consistencia, suficiencia y varianza mínima. Además, éstos 
proporcionan los medios necesarios para el desarrollo de criterios de inferencia para 
A, y A- 

La suposición de que los errores se encuentran normalmente distribuidos es justi- 
ficable, debido a que la componente de error en el modelo es, en general, un efecto 
compuesto que representa muchas perturbaciones pequeñas pero aleatorias, las 
cuales son independientes de la variable de predicción y se deben a factores que no se 
encuentran incluidos en el modelo. En todo caso, las desviaciones de la suposición de 
normalidad para valores grandes de n no son, en general, serias. 
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13.5 Propiedades generales de los estimadores de mínimos cuadrados 

En esta sección se desarrollarán algunas propiedades generales de los estimadores de 
mínimos cuadrados, por lo que se considerarán algunos criterios que permitan la 
construcción de intervalos de confianza y la realización de pruebas de hipótesis con 
respecto a los parámetros de regresión /3 y ¡3 t . Asi mismo, se examinará la estima- 
ción de la respuesta media para una x dada y la predicción de una Y en particular 
para un valor dado dex En gran medida, el enfoque de esta sección será de carácter 
teórico. 

Considérense los estimadores no sesgados de /3 y /3, que son funciones lineales 
de las observaciones Y,, Y 2 , .... Y„. Si entre todos estos estimadores de /3 y /3| 
existen algunos cuyas varianzas son más pequeñas que las de todos los demás estima- 
dores no sesgados de /3 y /3, , entonces estos son los mejores estimadores lineales no 
sesgados (MELI) de A, y /3, . El siguiente teorema conocido generalmente como teo- 
rema de Gauss- Markov, garantiza que los estimadores de mínimos cuadrados de /3« 
y A son los MELI para Ai y ySi - 

Teorema 13.1 Sean las suposiciones para el modelo Y¡ = A> + f},.x¡ + e, las mis- 
mas que aquellas que se necesitan para la estimación de mínimos cuadrados de Ai y 
A . Entonces los estimadores de mínimos cuadrados de B y B, son los mejores esti- 
madores lineales no sesgados de A> y A- 

Mientras que la demostración del teorema 13.1 se encuentra más allá de los obje- 
tivos de este libro, se demostrará que B y B¡ son combinaciones lineales de las ob- 
servaciones Y¡ , Y 2 , ... Y„. Lo anterior permitirá demostrar que 



(13.13) 





E(B t ) = 0, 


y 


Vfirífl \ — 




varyts¡) — „ 

2 íx, - rxy- 

i= 1 


mientras que 


E(B ) = A, 


y 









(13.14) 



n 2 U,- - -v) : 



Para demostrar que B, es una combinación lineal de Y t , Y 2 Y„. recuérdese 

la segunda expresión dada en (13.6). Primero, se desea demostrar que 



Sív, -x)(Y, - Y) = ]>>, .-.r)l',. 
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Lo anterior es verdadero, dado que 

2 (x, - Je) (Y, - Y) = 2 (x, - x)Y ¡ - T2 (x, - Jt); 
pero 2(jt, - x) = 0, y 

, Srx,-jf)(y,. -T) = I(x,-i)}', 

De acuerdo con lo anterior, 



B t 



1 (x, - x)Y, 



2 (* -. *) 2 



\2 

1=1 



donde las jt, son fijas ya que son valores de una variable de predicción no aleatoria. 
Sea 

c,-= ,/'"* , (13.15) 

■5>.--*> 2 

i= i 

donde los c,' son cantidades fijas, dado que las jc,' también son fijas. Entonces el es- 
timador B, se expresa como 



í=! 

la cual es una combinación lineal de las observaciones Y, , y 2 - • - - > ^ n • 
Para demostrar que B, es un estimador no sesgado de /8, , se tiene 



£(5 l ) = £Í¿c,T / j 



Pero 



= 2 f.-Eír,) 

= 2 OÍ/So + /8,.r,.) 

= A. 2 c, + /3, £ í-.-x,-. 



2 u,- - x) 
2 c, = ^ = o, 

2>,-í) 2 
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„ S U, - x) X¡ ^ (x, - x){ Xi - X) 



1 = 1 



2 (x, - j) 2 



£ (*, - *) 2 



De esta forma, 



E(B t ) = 0,. 



Dado que por hipótesis las observaciones Y¡ no se encuentran correlacionadas 
por pares, Cov(Y¡, Y¡) = 0, / f j. Entonces, mediante el empleo de la segunda 
parte del teorema 6.1, se demuestra que la varianza de B l está dada por (13.13.) De 
esta forma se tiene 



Var(B,) = Var S c,T,- 



= 2 ¿VariYd 

(*,- - I) 



= c 2 E 



^{^{Xi-Xfl 



2 (JTI - *)* 



a 



£ (jr f - 1) 2 



La raíz cuadrada de Var(B,) es la desviación estándar* del estimador de mínimos 
cuadrados de la pendiente y está dada por 



d.e.(B t ) = 



(T 



£(*.■ - *) 2 



1/2 



Dado que, en general, la desviación estándar a del error es desconocida, puede obte- 
nerse un estimador de d.e. (B¡ ) al reemplazar a por la desviación estándar residual s, 
como está dada por (13.1 1). De esta forma, un estimado de la desviación estándar de 
B,es 



* También conocida como error estándar. 



■* ■' 
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s(B t )* = 



2 (*< - *y 



1/2 



(13.16) 



Ahora considérese el estimador de mínimos cuadrados de la intersección desco- 
nocida y3 . Dado que el estimador de mínimos cuadrados es 

B = Y - B t x, 

y ya que el estimador de mínimos cuadrados de la pendiente es una combinación li- 
neal de las observaciones Y,, Y 2 , ..., Y n , entonces también B es una combinación 
lineal de las observaciones. Para demostrar que B es un estimador no sesgado de 
B , se tiene 

E(B ) = E(Y - B t x) 
2 E(Y t ) 



¿8|í 



1 = 1 

n 




- xl 


2(A> 


+ 


J8,x,-) 




n 




np + 


¿8i 


2*/ 



¿8,3f 



= B + B t x - B x x 

= A>- 

Para demostrar que Var(B )está dada por (13.14), de nuevo se empleará la se- 
gunda parte del teorema 6.1 y el hecho de que B y B¡ son combinaciones lineales de 
variables aleatorias no correlacionadas. Dado que B = Y - B,x, 

Var(B ) = Var(? - B¿) 

(^ Yi V 



= Var 






* Se empleará la notación más conveniente ^(T) y s(T) para denotar, respectivamente, la varianza y la 
desviación estándar estimadas de un estimador. T. 
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= 2[-- * c j Var M 



\n n ' 



Al sustituir (13.15) por c,y al recordar que lc¡ = 0, se tiene 



Var(B ) = o-' 



1 -- V 



u, - 


--T) 3 


> 


/I 


-i 


■) 


2 u, 


--T) 2 




Lí=i 


_ 


) 



n 2 U - *) 2 



Finalmente, si se sustituye x 2 = (S*,) 2 /" 2 , se obtiene 



Var(B ) = cr 2 



s* 



- + 



n rr 2 (*,■ - *) 2 



n S <-*/ - x ) 2 + 2 X; 



n 2 E (-*( _ x) 2 



Ix 2 



n 2 (v, - xf 

i= i 

Entonces, un estimador de la desviación estándar de fi () es 

n 

lx 2 



s(B ) = s 



n 2 (xi - -v) : 



(13.17) 
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Es interesante notar que las varianzas de B y B¡ son funciones de los valores x¡ 
para los cuales se observa la variable respuesta. En particular, para el estimador de 
la pendiente B¡ , Var(B t ) tiene un valor máximo cuando X(jr, - xf tiene un valor 
máximo. Pero 2(x, - x) 2 es máxima cuando la distancia entre los valores de jc.es 
la más grande. Esto ocurre cuando se escoge observar la respuesta sólo en los valores 
de los extremos del intervalo de variación de la variable de predicción, es decir, si 
verdaderamente el modelo de regresión es lineal, entonces deberán tomarse n/2 ob- 
servaciones en un extremo y n/2 en el otro para obtener la mejor eficiencia posible al 
estimar la pendiente de la línea recta. Lo anterior es lógico ya que sólo se necesitan 
dos puntos para definir una línea recta; sin embargo, en la práctica, no es muy co- 
mún el hecho de saber que la función de regresión es lineal de manera tal, que no 
sería prudente seleccionar los extremos del intervalo de x como puntos de observa- 
ción y minimizar la varianza del estimador de la pendiente. Una alternativa más se- 
gura consiste en tener puntos de observación espaciados de igual forma sobre todo el 
intervalo de interés de la variable de predicción. 

Para el modelo lineal simple, la recta de regresión estimada dada por (13.7) permite 
obtener un estimador para la media de la variable de respuesta para un valor específico 
de la variable de predicción. Sea x p este valor en particular y para el cual se desea estimar 
la media de la variable respuesta Y p . Entonces el estimador es y p = b + ¿>, x p . Para el 
mismo conjunto de valores de x existe una variación muestra a muestra en el estimador 
Y p , dado que existe una variación del mismo tipo para los estimadores de mínimos cua- 
drados B yB,. Puede observarse que lo anterior es cierto para el ejemplo del salario ini- 
cial, ya que no se espera tener la misma recta de regresión estimada si se selecciona otro 
conjunto de estudiantes con las mismas CP que los primeros. 

Considérese que la determinación de la media, y la varianza de Y p 
mador no sesgado de la media de Y p , dado que 



Y p esunesti- 



E{Y„) = E(B + B ]Xp ) = p + fi,x p = E(Y p ). 

Para obtener la varianza de Y p , se hará uso de la misma técnica empleada para la va- 
rianza de fi - De (13.8) se tiene 

Var(Y p ) = Varí? + B t (x p - x)) 

■2y, 



= Var 



Vari 2 



(x p -I)Xa- 



- + c¡(x p 
n 



x) 



Y¡ 



= 2 



a 



n 



c¡{x p - x) 



Var (Y,) 



I 2(.v„ - x) v-i , v< -> 

- + -^ 2 c, + (.r„ - n 2 c? 

n n 



I + (x„ - .r)~ 



_n 2 i* " *) 2 



(13.18) 
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Por lo tanto, un estimador de la desviación estándar de Y p está dado por 



s(VJ = s 



]_ 

«2 (x¡ 



(x p - xf 



x) 2 



1/2 



(13.19) 



Supóngase que en lugar de estimar la media de Y p en x p , se desea predecir un 
valor particular de Y p que se observaría si se impusiera un valor x p para la variable 
de predicción. Por ejemplo, dada la ecuación de regresión estimada, ¿cuál podría ser 
el valor del salario inicial para un estudiante en particular con un CP conocido? Aun- 
que se trata de un solo estudiante, puede ser razonable predecir el salario inicial pro- 
medio para un CP dado. De esta forma, si se desea estimar la media de Y p o un 
valor particular de Y p para jc p , el valor estimado es el mismo y está dado por (13.7). 
Pero es evidente que la varíanza de la predicción para este último caso puede tener 
un valor más grande, ya que ésta no sólo considera la variación muestra a muestra 
de Y p , sino también la variación inherente de la distribución de probabilidad de Y p . 
Si se supone que el valor predicho de Y p para x p es independiente de la muestra que pro- 
porciona la recta de regresión estimada, la covarianza de Y p y Y p es cero. Entonces 



V«r(y part ) = Var(Y p ) + Var(Y p ) 



= a 2 + <r 2 



~\2 



- + 



(x p - x) 



n 2 (-*.• ~ x) 2 



1+ i + ^-- J) 



n Yj (x¡ - xf 



(13.20) 



donde y part denota la predicción particular para Y p en x p . Del análisis anterior se 
obtiene que un estimador de la desviación estándar de Y pan está dado por 



■S(^part) = S 



1 + 1 + ^~ J) 



n £ (x, - x) 2 j 



1/2 



(13.21) 



Mediante el empleo de los datos que aparecen en la tabla 13.2, se ilustra el cálcu- 
lo de las varianzas y las desviaciones estándar de los estimadores de mínimos cuadra- 
dos B i y B . Dado que 



y s 2 = 1.759, 



2 U, - x) 2 = 2 x 2 - (y x,) 2 /n = 0.886 



*»■> " 55Í " '■*'• 



5(5,) = 1.409. 



De manera similar, 



2íB (1.759K139.51) lfi ._ 
S iBo) = (15K0.886) = ,8 ' 465 
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s(B ) = 4.297. 

Si se continúa con este ejemplo, supóngase que se desea estimar la media de la 
distribución de salarios inciales cuando el CP es x p = 3.25. Nótese que este valor 
no es uno de los valores de x que dieron origen a la recta de regresión estimada, pero 
se encuentra dentro del intervalo definido por estos valores. De (13.10) y (13.18) la 
media y la varianza estimadas para x p = 3.25, son 

y p = -6.63 ± 8.12(3.25) = 19.76 



s\Y p ) = 1.759 



_L (3.25 

15 + 0.886 



3.04) 2 



= 0.205, 



respectivamente. De esta forma, la desviación estándar estimada es \/0.205 = 0.453 
miles de dólares. Si se desea predecir el salario inicial real para un estudiante en par- 
ticular con una CP de 3.25, el valor estimado sería aún de 19.76 miles de dólares, 
pero la varianza estimada sería de 



1.759 



1 + 



_L (3-25 - 3.0 4) 
15 + 0.886 



21 



= 1.964, 



o una desviación estándar de 1.401 miles de dólares. 

En esta sección se han determinado las medias y las varianzas de los estimadores 
B , B u Y p y Y pan , pero aún no se han desarrollado sus distribuciones de muestreo. 
Para realizar esto es necesario suponer el caso de la teoría normal de la sección ante- 
rior, en el que se supone que cada error aleatorio e, tiene una distribución normal 
con media cero y varianza o- 2 para toda / = 1, 2, ..., n. Por lo tanto, las observa- 
ciones K, , K 2 , ..., /"„ son variables aleatorias independientes y distribuidas en forma 
normal con medias B + B\X¡ y varianza común cr 2 , para i = 1, 2, ..., n. 

Para obtener la distribución de la muestra para el estimador de la pendiente B { , 
bajo el caso de la teoría normal, sólo necesita recordarse que S, es una combinación 
lineal de variables aleatorias normalmente distribuidas y, de esta forma, la combina- 
ción es una variable aleatoria con distribución normal, media 6¡ y varianza dadas 
por (13.13). Al recordar la definición de una variable aleatoria / de Student puede 
demostrarse que la distribución de la cantidad 

(B, - B^/siB,) 

es la t de Student con n - 2 grados de libertad. El estimador B también es una com- 
binación lineal de variables aleatorias normalmente distribuidas. Así, B también es 
normalmente distribuida, con media /3 y varianza dadas por (13.14). Además, se 
puede mostrar que la cantidad 



(B a - B )/s(B ) 
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es una variable aleatoria de la t de Student cpn n — 2 grados de libertad. Como se 
verá en la siguiente sección, estos resultados permiten la formulación de inferencias 
estadísticas con respecto a los parámetros desconocidos /3 y /3,. 

Bajo el caso de la teoría normal, el estimador Y p = B + B\X P de la media de 
Y p para x p también se encuentra normalmente distribuido con media E(Y P ) y 
varíanza dada por-(13. 18), ya que ésta es una combinación lineal de variables aleato- 
rias normalmente distribuidas. Entonces, la distribución de 

[Y, - E(Y p )]/s(Y p ) 

es la t de Student con, de nuevo, n -2 grados de libertad. También se obtiene un re- 
sultado similar para la predicción K pan para una respuesta en particular Y p corres- 
pondiente a x p . Así, resulta comprensible el porqué n - 2 grados de libertad, ya que 
la determinación de la recta de regresión necesita la estimación de los dos paráme- 
tros de regresión B y /3, . 
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En la sección precedente se examinaron las propiedades teóricas de los estimadores 
para el modelo lineal simple. En esta sección se emplearán esas propiedades para 
llevar a cabo un análisis de regresión, es decir, se desarrollarán pruebas de hipótesis 
e intervalos de confianza para las cantidades de interés en este modelo. 
El parámetro clave del modelo lineal simple 

Y = & + p,x¡ + e, 

tiene que ser la pendiente /?, . Si la respuesta y se encuentra relacionada en forma li- 
neal con la variable de predicción x, la pendiente B, tiene que ser diferente de cero. 
De otra forma, no existe ninguna relación lineal entre Y y x. Un procedimiento infe- 
rencial natural para B, es construir un intervalo de confianza del 100(1 - <*)% 
para /3, . Si este intervalo no contiene el valor cero, entonces es razonable concluir 
que /3, es diferente de cero y que Yy x están, en algún grado, relacionados en forma 
lineal. 

Recuérdese que bajo el caso de la teoría normal, la variable aleatoria (5, - B,)/- 
s(B t ) tiene una distribución t de Student con n - 2 grados de libertad. Entonces 

PIBi - /,-„/,.„ _,j(fl,) < ¿3, <fl, + /,-„/:.„-:.*(£,)] = 1 - a, 

o la probabilidad de que el intervalo aleatorio [B¡ - t¡ _„ r2 „_ : A'(fi,), B, + /,„/;. 
„_ 2 .y(B,)] contenga el valor real de la pendiente (i , es 1 - a. Al reemplazar el 
estimador de mínimos cuadrados B l por su estimador dado por (13.6), el intervalo 
de confianza del 100(1 - a) % para B, es 

by ± /.-„/:.„ -z-slB,), 

donde la desviación estándar estimada .s(B¡) está dada por (13.16). Como ejemplo, 
recuérdese la recta de regresión estimada v, = -6.63 + 8.12.x, para los datos de 
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los salarios iniciales. Dado que ¿| = 8.12 y s(B¡) = 1.409, entonces un intervalo 
del 95% de confianza para /3, es > 

8.12 ±(2.160X1.409) = (5.08, 11.16), 

donde t .975. u = 2. 160. La interpretación de este intervalo es la siguiente: supónga- 
se que se toman muestras repetidas, cada una del mismo tamaño n, de la variable de 
respuesta para algunos de los valores de x que producen la recta estimada y¡ = — 
6.63 + 8. 12*,, construyéndose para cada muestra un intervalo de confianza del 
95% para /3, . Por lo tanto, el 95% de todos estos intervalos incluirá el valor real de 
la pendiente /3,. 

Considérese la prueba de la hipótesis nula 

contra la alternativa 

donde B¡„ es el valor propuesto de la pendiente desconocida A . Bajo H Q , la estadís- 
tica 

T _ B i- fr» 

s(B { ) 

tiene una distribución t de Student con n — 2 grados de libertad. De esta forma, 
para un tamaño dado del error de tipo I puede tomarse una decisión, en forma fácil, 
con base en la evidencia de la muestra. Nótese que también es posible tener hipótesis 
alternativas unilaterales. 

Al igual que en los casos ya analizados, cualquier valor propuesto de A que se 
encuentre en el correspondiente intervalo de confianza, causará una equivocación 
al rechazar a H . En general, el valor propuesto es el cero; es decir, la hipótesis nula 
establece que no existe ninguna asociación lineal entre x y Y, así que el valor de la es- 
tadística de prueba es 

t = bJs(B,). 

Como ejemplo, considérese la prueba de la hipótesis nula 

H :p, =0 

contra la alternativa 

//,:/3,>0 

para el ejemplo de los salarios iniciales contra CP. Se ha seleccionado una hipótesis 
alternativa unilateral, ya que el sentido común dicta que si existe una relación lineal 
entre CP y el salario inicial, la pendiente deberá ser positiva. Para a = 0.01 ; enton- 
ces /„ w ,, = 2.650, y 

/ = 8. 12/ 1. 409 = 5.76. 

Por lo tanto, se rechaza la hipótesis nula de que la pendiente es cero. Este resultado, 
junto con el intervalo de confianza para /3, , sugiere que el salario inicial promedio se 
encuentra influenciado, en forma lineal, por la calificación promedio. 
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También puede construirse un intervalo de confianza para el parámetro de inter- 
sección B en forma similar. Dado que (B - B )/s(B ) ~ t de Student con n - 2 
grados de libertad, 

P[B - tt- an . „- 2 s(B ) <B <B + /,_„ /2 . n - 2 s(B )] = 1 - a 

es un intervalo aleatorio para B con probabilidad l - a. Por lo tanto, un interva- 
lo de confianza del 100(1 - a)% para B es 

b ± f|-„/2. „-2*(#o) 

donde ¿> es el estimador de mínimos cuadrados y s(B ) es la desviación estándar esti- 
mada. De nuevo, para el ejemplo de los salarios iniciales, un intervalo de confianza 
del 99% para B es 

-6.63 ± (3.012X4.297) = (-19.57,6.31). 

El lector debe darse cuenta que el significado de un intervalo como el anterior no 
es del todo aparente, ya que el modelo de regresión no tiene sentido si la calificación 
promedio es cero. En general, deben evitarse las inferencias con respecto a la inter- 
sección, a menos que exista un valor de la respuesta para x = 0. 

Ahora, considérese la estimación por intervalo de la media de Y„ para x p . Re- 
cuérdese que bajo el caso de la teoría normal, el estimador Y p = B + B t .x p tiene 
una distribución normal con media E( Y p ) y varianza dada por (13. 18) y la distribu- 
ción de muestreo de [ Y p - E( Y p )]/s( Y p ) es la t de Student con n - 2 grados de liber- 
tad. Entonces la probabilidad del intervalo aleatorio 

Y P - t l - a/2 , n - I s(Y p )<E(YJ<Y p + t l - a/I .„- 2 s(Y p ) 
*es 1 - a, y un intervalo de confianza del 100(1 - a)% para E( Y p ) es 

y p ± 'l-a/2. n-2*(Y p )- 

Para el ejemplo de los salarios iniciales, supóngase que se desea construir un in- 
tervalo de confianza del 95% para la media de Y p en x p = 2.80. El valor estimado 
es 

y p = -6.63 + 8.12(2.80) = 16.11 



y la desviación estándar estimada es 

I 1/2 

■ ■ / OÍ ■ T_\l**l I 

5(1;) = 1.759 



J_ (2.80 - 3.04) 2 



0.481. 



15 0.886 

Dado que / 09 75 n = 2. 160, un intervalo de confianza del 95% para E{Y P ) es 

16.11 ± (2.160)(0.481) = (15.07, 17.15). 

Al seguir este procedimiento, pueden obtenerse intervalos de confianza del 95% 
para É( Y p ) para distintos valores de la variable de predicción. Los resultados se en- 
cuentran resumidos en la tabla 13.3. 
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TABLA 13.3 Intervalos de confianza para los salarios iniciales medios 



s(Y p ) 



Intervalo de confianza del 95% 



2.60 
2.70 
2.80 
2.90 
3.00 
3.10 
3.20 
3.30 
3.40 
3.50 
3.60 



14.48 
15.29 
16.11 
16.92 
17.73 
18.54 
19.35 
20.17 
20.98 
21.79 
22.60 



0.708 
0.589 
0.481 
0.395 
0.347 
0.353 
0.410 
0.501 
0.612 
0.733 
0.860 



(12.95, 
(14.02, 
(15.07, 
(16.07, 
(16.98, 
(17.78, 
(18.46, 
(19.09, 
(19.66, 
(20.21, 
(20.74, 



16.01) 
16.56) 
17.15) 
17.77) 
18.48) 
19.30) 
20.24) 
21.25) 
22.30) 
23.37) 
24.46) 



Para ilustrar la naturaleza de estos intervalos de confianza, cuando se comparan 
con los valores de la variable de predicción, se granea la recta estimada de regresión 
y después los límites inferior y superior de cada intervalo contra x p . El resultado se 
ilustra en la figura 13.3. Nótese que los límites inferior y superior forman dos hipér- 
bolas con respecto a la recta de regresión estimada. La distancia vertical entre cada 




2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 



FIGURA 13.3 Intervalos de confianza y la recta de regresión estimada 
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curva y la recta de regresión es más pequeña para el punto x = 3.04 y aumenta, en 
forma simétrica, en ambas direcciones al alejarse de x. Si se plantea en forma senci- 
lla, los resultados anteriores indican que la predicción de E( Y p ) es más confiable (va- 
rianza más pequeña) alrededor de la mitad de los valores de x obtenidos por 
medio de la ecuación de regresión que en los extremos del intervalo de valores x. 

Recuérdese que el usuario puede estar más interesado en predecir una respuesta 
particular para una x dada, que en estimar la respuesta media para ese mismo valor 
x. Mientras que el valor predicho puede ser el mismo en cualquier caso, la variabili- 
dad del estimado con respecto a la respuesta en particular será decididamente más 
grande que la correspondiente a la respuesta media. Dado que, bajo el caso de la 
teoría normal, la cantidad [Y fan - Y p ]/s(Y pán ) es una variable aleatoria t de Stu- 
dent con n - 2 grados de libertad entonces, para un a dado, 

P[K« - ii-an.-2s(Y fn ,)< Y P <Y fa « + h-ci.n-isiY^)] = 1 - a. 

Con base en este resultado puede obtenerse lo que, en general, recibe el nombre 
de intervalo de predicción para la observación Y p . Un intervalo de predicción es el 
análogo del intervalo de confianza. Un intervalo de predicción del 100(1 - a)% 
para una observación particular Y p , es 

^part — f|-a/2, n-2 s (*part)- 

Como ejemplo, se construirá un intervalo de predicción del 95% para el salario 
inicial de un recién graduado con una calificación promedio de 2.80. El valor predi- 
cho puede ser el mismo que el de la respuesta media, 

y parí = - 6.63 + 8.12(2.80) = 16.11; 

pero la desviación estándar estimada es 



.r(K parl ) = 1.759 



J_ (2.80 - 3.Ó4) 2 
+ 15 + 0.886 



1/2 

= 1.411, 



la cual es mucho más grande que el valor comparable de 0.481 para Y p . Por lo tanto, 
un intervalo de predicción del 95% para Y r „ es 

16.11 ± (2.160)0.411) = (13.06, 19.16). 

En la tabla 13.4 se proporcionan los intervalos de predicción del 95% para las obser- 
vaciones de la respuesta correspondiente a cada uno de los valores de x que se en- 
cuentran en la tabla 13.3 y que no son parte del conjunto original que dio origen a la 
ecuación de regresión estimada. Como era de esperarse, los intervalos de predicción 
para las observaciones individuales de la respuesta son mucho más grandes que los 
correspondientes intervalos de confianza para la media de la misma. 

Ya que el análisis de regresión se basa en la teoría normal, es apropiado formular 
un comentario con respecto a las consecuencias sobre la inferencia cuando las distri- 
buciones de probabilidad de los errores aleatorios no son normales. Si la desviación 
con respecto a la normalidad no es muy grande, las distribuciones de muestreo de los 
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TABLA 13.4 Intervalos de predicción para los salarios iniciales individuales 
x p 5> pan simpan) Intervalo de predicción del 95% 



2.60 


14.48 


2.80 


16.11 


2.90 


16.92 


3.00 


17.73 


3.30 


20.17 


3.50 


21.79 



1.503 


(11.23, 17.73) 


1.411 


(13.06, 19.16) 


1.384 


(13.93, 19.91) 


1.371 


(14.77, 20.69) 


1.418 


(17.11, 23.23) 


1.515 


(18.52, 25.06) 



estimadores serán muy cercanas a la normalidad y se acercarán a ésta conforme 
aumente el tamaño de la muestra. Bajo estas condiciones, la distribución t de Stu- 
dent sigue siendo muy robusta y proporciona aproximaciones muy cercanas a los ni- 
veles de confianza propuestos. 
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El análisis de regresión para el modelo lineal sencillo también abarca la aplicación de 
la técnica del análisis de varianza analizada en el capítulo 12. En síntesis, la técnica 
del análisis de varianza proporciona sólo un medio alternativo al de la sección 13.6 
para probar la hipótesis nula de que la pendiente es cero. Sin embargo, permite una 
comprensión natural del problema y por lo tanto es muy útil para el análisis de mo- 
delos más complicados, lo cual se hará más adelante. 

Recuérdese que la técnica del análisis de varianza divide la variación total de las 
observaciones en sus partes componentes de acuerdo con el modelo propuesto. En 
esencia, para el modelo lineal simple la variación total es la suma de dos componen- 
tes: la causada por el término no aleatorio /3,jc, y la que se debe al error aleatorio e. 
Dado que lo que se pretende es que la recta estimada de regresión explique la mayor 
cantidad posible de la variación total, la contribución del término /3,jc debe ser sus- 
tancial. El resultado anterior implicaría que las variables respuesta y predicción 
están relacionadas en forma lineal. Si /3 , = 0, no existe una asociación lineal entre x y Y. 

Para desarrollar el enfoque del análisis de varianza, se seguirá el procedimiento 
establecido en el capítulo 12. Considérese la desviación de la observación Y, de la 
media de las observaciones Y. Por el momento, supóngase que todas las observacio- 
nes Y¡ son iguales entre sí, así que la pendiente /3, debe ser cero, e, = 0, y Y, ■ = Y 
para toda /. Por otro lado, si la magnitud de la desviación Y¡ - Y es mayor que 
cero, ésta deberá atribuirse a las componentes del modelo. 

Para la desviación 

Y, -Y 

supóngase que se suma y se resta el estimador Y¡ para la media de Y,, tal como se 
obtiene de la ecuación de regresión. Entonces 

Y, ■ - Y = Y, - Y + Y, - Y¡ 
= ?,.-?+ Y, - Y,. 
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De esta forma, la desviación total de la observación Y¡ con respecto a la media Y, es 
la suma de la desviación de la respuesta media estimada Y¡ de y y la desviación de 
Y ¡ con respecto a Y¡. Nótese que la última diferencia es el estimador para el /-ésimo 
residuo, el cual representa la distancia vertical desde la respuesta observada al punto 
correspondiente sobre la recta de regresión estimada. Las desviaciones Y¡ - Y¡ re- 
presentan la contribución a la componente de error a la variación total. Recuérdese 
que Y ¡ estima la media de Y, para x¡. Si la variable de predicciónno tiene ningún 
efecto lineal sobre la respuesta, entonces Y, es virtualmente igual a Y para toda /; es 
decir, /3, = 0, y el estimador de minimos cuadrados de /3 es Y. Si la magnitud de la 
desviación de Y¡ - Y es grande, entonces se tiene un efecto lineal de x sobre Y (/3| 
¿0). 

Para proseguir con el enfoque del análisis de varianza se tomará el cuadrado de 
ambos miembros de la identidad 

Y -Y=Y i -Y+ Y,- Y„ 

y se sumarán para todas las observaciones "£(Y¡ - Y) 2 . Entonces se tiene 

ti n n n 

2 (Y, - Y) 2 = 2 (Y ~ Y) 2 + 2 (Y, - Y,) 2 + 2 ^ (Y, - Y)(Y ~ Y). 

í=i í=i í=i í=i 

Para demostrar que los productos cruzados son cero, se vuelve a escribir la última su- 
ma como 

2 (Y - Y)(Y - Y) = 2 [YÁY - Y) - Y(Y - Y)] 
= 2 YÁY- Y)-y2(Y~ Y)- 

De acuerdo con la propiedad 1 de la recta de regresión estimada, examinada en la 
sección 13.3, la segunda suma es cero. La primera suma puede escribirse como 

2Y(Y- Y) = 2Ye i 

= 2 (fio + B lXi ) e¡ 
= B 2 e¡ + B, 2 x¡ e, 
= 0, 

Dado que Sí, y 2.x¡ e¡ son cero de las propiedades 1 y 3, respectivamente, por lo 
tanto la ecuación fundamental del análisis de regresión es 

Í (Y - Y) 2 = 2 (Y ~ Y) 2 + ¿ (Y, - Y) 2 . (13.22) 

i=l /=l i=l 

De acuerdo con la terminología dada en el capítulo 12, el término l.(Y¡ - Y) 
es la suma total de cuadrados STC la cual toma en cuenta la variación total de las obser- 
vaciones Y j con respecto a su media sin considerar la variable de predicción. Las compo- 
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nentes de STC son la suma de los cuadrados de los errores SCE = S( Y¡ - Y¡ f y la 
suma de los cuadrados de la regresión SCR = I,(Y¡ - Y) 2 . SCE toma en cuenta la va- 
riación de las observaciones con respecto a la recta de regresión estimada. Si todas 
las observaciones se encuentran sobre la recta estimada, el valor de todos los residuos 
es cero y SCE = 0. Se desprende el hecho de que entre mas grande es el valor de SCE, 
mayor es la contribución de la componente de error a la variación de las observacio- 
nes, o mayor es la incertidumbre cuando se estima la respuesta mediante el uso de la 
ecuación de regresión. Por otro lado, SCR representa la variación de la observación 
que es atribuible al efecto lineal de x sobre Y. Si la pendiente de la recta estimada de 
regresión es cero, entonces SCR = 0. De esta forma, entre más grande es la propor- 
ción de SCR con respecto a SCT, mayor será la cantidad de la variación en las obser- 
vaciones que puede explicarse mediante el término lineal /?,* 

¿Cuál es el número de grados de libertad asociado con cada término de (13.22)? 
Recuérdese la definición del número de grados de libertad asociados con una suma 
de cuadrados dada en el capítulo 12. Para STC existen n - 1 grados de libertad ya 
que se pierde uno por causa de la restricción lineal 2( Y, : - Y) = entre las obser- 
vaciones Y r Nótese que SCE es el numerador de la expresión (13.11) para el cálculo 
de la varianza residual, así que el número de grados de libertad para SCE será de 
n — 2.* Dado que los grados de libertad son aditivos, 

gl(SCR) = gl(STC)-gl(SCE), 

y SCR tiene un grado de libertad. Como se observará posteriormente, cuando se tra- 
ten modelos más complicados, el número de grados de libertad para SCR será 
siempre igual al número de parámetros de regresión en el modelo, sin contar a /3 . 
Para el análisis de varianza se buscará una estadística para probar la hipótesis 
nula 

H : /3, = 
contra la alternativa 

En general, H se conoce como la hipótesis de regresión no lineal entre x y Y. Si se 
supone el caso de la teoría normal, entonces bajo la hipótesis nula las observaciones 
Y, son n variables aleatorias independientes normalmente distribuidas con la misma 
media y, = f} y varianza o- 2 . Por lo tanto, puede demostrarse que SCR/cr 2 . y SCE 
/a 2 son dos variables aleatorias independientes con una distribución chi-cuadrada 
con 1 y n - 2 grados de libertad, respectivamente. Entonces, del teorema 7.8, la va- 
riable aleatoria 

SCR/cr 2 

F = ', , = — ^GK/X = CMR/CME (13.23) 

SCE/cr 2 SCE/(n - 2) 



* Los dos grados de libertad que se pierden se deben a las dos restricciones lineales dadas por las propie- 
dades 1 y 3 de la sección 13.3. 
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tiene una distribución Fcon 1 y n - 2 grados de libertad, donde el cuadrado medio 
del error es igual a la varianza residual. 

Para llegar a la región de rechazo apropiada para H sugerida por (13.23), se 
empleará la intuición. Con base en un conjunto dado de datos, un valor grande de 
CMÉ comparado con CMR implicará ajuste pobre y sugerirá la ausencia de una aso- 
ciación lineal entre x y Y. Pero un valor relativamente pequeño para CME implicará 
el hecho de que una porción considerable de la variación en las observaciones es atri- 
bútale a un efecto lineal de x sobre Y. Por lo tanto, la hipótesis nula de regresión no 
lineal entre x y y debe rechazarse siempre que el valor de (13.23) sea relativamente 
grande. De otro modo, la evidencia experimental no apoya el rechazo de H . Sobre 
una base más teórica, puede demostrarse que 



£(CMR) = o- 2 + 0? 2 (x, - x? 

y 

£(CME) = o- 2 . 

Si //o es cierta, entonces el valor esperado de CMR también es a 2 . Pero si /3, ^ 0, 
£(CMR) es mayor que a 2 , ya que el término f3] I,(x¡ - xf es positivo. Por lo tanto, 
la estadística apropiada está dada por (13.23) con el extremo superior de la distribu- 
ción F como región crítica; es decir, para un tamaño dado del error de tipo I a se re- 
chaza la hipótesis nula de no regresión lineal cuando un valor de F = CMR/CME se 
encuentra dentro de la región crítica superior de la distribución F con 1 y n - 2 gra- 
dos de libertad. La tabla de análisis de varianza (ANO VA) para el modelo lineal 
simple se encuentra en la tabla 13.5. 

Para calcular las sumas de cuadrados que aparecen en la tabla 13.5, se tiene 



2 y, 
stc = 2 <* - y) 2 = 2 y 2 



donde y¡, y 2 , ..., y„ son las verificaciones de las observaciones, y e,, e 2 , ..., e„ 
son los residuos correspondientes. Entonces SCR = STC - SCE, o puede calcularse 

TABLA 13.5 Tabla ANO VA para el modelo lineal simple 

Fuente de 

variación gl SC CM Estadística F 

Regresión 1 2 (Y, - ~Y) 2 2 (K, - K) : /l 

Error n - 2 2 (Y, - K,) 2 % (Y, - Y,f/(n - 2) 

Total n - \ £ < Y. ~ Y)' 



^ (Y, ■ - Yf/(n - 2) 



J 



í 
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en forma directa. Dado que la recta estimada es 

y¡ = y. + H*¡ - x) 
o 

y¡ - y = b,(x, - x), 

al elevar al cuadrado ambos miembros y si se suman para todas las / = 1, 2 ... n se 
obtiene 

SCR = 2 (Si - y) 2 = b] 2 (*,- - xf. (13.24) 

Como ejemplo, recuérdese de nuevo el problema de los salarios inciales. Supón- 
gase que se desea probar la hipótesis nula de que no existe una regresión lineal entre el 
salario inicial y CP, contra la alternativa de que ésta existe, con a = 0.01 . Mediante 
el uso de la tabla 13.2 se calculan las siguientes cantidades: 

(270 8) 2 
STC = 4970.12 - l ' = 81.2773, 

SCE = 22.8671, 

SCR = 81.2773 - 22.8671 = 58.4102. 

Para/i = 15 se proporciona la tabla ANO VA en la tabla 13.6. Dado que /= 33.21 
> /o.99. i, i3 = 9.07, se rechaza la hipótesis nula de no regresión lineal y se concluye 
que el salario inicial promedio está influenciado, en forma lineal, por la calificación 
promedio. 

Como es de esperarse, existe una relación entre la estadística F anterior con 1 y n 
- 2 grados de libertad y la correspondiente estadística l de Student (véase la sección 
13.3) para una hipótesis alternativa bilateral. Puede establecerse la relación median- 
te lo siguiente: dado que 

SCR = B] 2 U, - x) 2 

y 

í 2 (fi,) = CME/^Ui-x?, 

TABLA 13.6 Tabla ANOVA para los salarios iniciales 

Fuente de 

variación gl SG CM Valor F 



Regresión 1 58.4102 58.4102 

Error 13 22.8671 1.759 

Total 14 81.2773 /,*..■. ,, = 9.07 



33.21 
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entonces 



cmr b]2(x,-x) 2 /i • ;., ,;; - 

CME s 2 (B,) 2, U, - *) 2 tíur; 

De acuerdo con lo anterior, si una variable aleatoria tiene una distribución Fcon 1 y 
n- - 2 grados de libertad, entonces _ ^ 

F = T 2 , 

donde Tes una variable aleatoria t de Student con n - 2 grados de libertad. La rela- 
ción entre los cuantiles es 

f\-a, 1. n-2 = l\-a/2. n-7- (13.25) 

Hasta aqui se han examinado algunas maneras para probar la hipótesis nula de 
no regresión lineal entre x y Y. Ahora se presentará una cantidad numérica muy útil 
que es una medida relativa del ^rado de asociación lineal entre x y Y. Lo que se desea 
es tener una cantidad que mida la proporción de la variación total de las observacio- 
nes con respecto a su media la cual es atribuida a la recta estimada de regresión. 
Dado que STC representa la variación total con respecto a la media y SCR mide la 
porción de ésta, que es atribuible a un efecto lineal de x sobre Y, una medida apropia- 
da es 

2 SCR STC - SCE SCE 

r = ST^ = STC = l " STC" (B - 26) 

r 2 recibe el nombre de coeficiente de determinación. Los valores que toma están 
siempre en el intervalo ^ r 2 =s 1 ya que =£ SCE =£ STC. De manera ideal, se 
desea tener un r 2 = 1 ya que entonces SCE = 0, y toda la variación presente en las 
observaciones puede explicarse por la presencia lineal de x en la ecuación de regre- 
sión. De esta forma, entre más cercano se encuentre r 2 a uno, mayor es el grado de 
asociación lineal que existe entre x y Y. Como ilustración, el coeficiente de determi- 
nación para el ejemplo del salario inicial, es 

, 22.8671 

r = l - 77^^ = 0.7187. 
81.2773 

Por lo tanto, la presencia lineal de CP en el modelo de regresión explica el 71.87% 
de la variación total en los salarios iniciales observados. 

Ya que muchas veces se da una mala interpretación a r\debe hacerse un comen- 
tario sobre lo que r~ no mide. r~ no mide la validez del modelo de regresión pro- 
puesto, es decir, r 2 no puede verificar que la verdadera ecuación de regresión entre x 
y Y sea estrictamente lineal. Todo lo que puede medir es cuánto se explica de la va- 
riación total mediante la ecuación de regresión estimada. En realidad, el modelo ver- 
dadero de regresión entre x y Y puede contener términos no lineales en x, u otras 
variables de predicción, o ambos. Estas cuestiones serán examinadas en el capí- 
tulo 14. 
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A continuación se presenta una muestra de un listado de computadora para el 
análisis de regresión lineal de los datos de salarios. La lista de paquetes estadísticos 
disponible para computadora incluye a SAS, SPSS, BMDPy Minitab. El listado que 
se muestra en la figura 13.4 fue generado por Minitab. Nótese que incluye los coefi- 
cientes de la regresión estimados, sus desviaciones estándar, la prueba T para pen- 
diente cero, la desviación estándar residual (o la desviación estándar de Y con res- 
pecto a la recta de regresión); el valor de r 2 las sumas de los cuadrados, los cuadra- 
dos medios para el análisis de varianza y los residuos estandarizados definidos en el 
capítulo 12. 



LA ECUACIÓN DE REGRESIÓN ES 
Y = - 6.63 + 8.12 XI 



XI 



COLUMNA 



C2 



COEFICIENTE 

-6.627 
8.118 



DEV. EST. 

DEL COEF. 
4.298 
1.409 



COCIENTE-T 
COEF/D.E. 

-1.54 
5.76 



LA DEV. EST. DE Y CON RESPECTO A LA RECTA DE REGRESIÓN ES 

S = 1.327 

CON ( 15- 2 ) = 13 GRADOS DE LIBERTAD 

R-CU ADRADO = 71.Í 



ANÁLISIS DE VARIANZA 



DEBIDA A 


DF 


se 


CM = SC/GL 




REGRESIÓN 


1 


58.393 


58 


393 




RESIDUO 




13 


22 . 880 


1 


760 




TOTAL 




14 


81.274 










XI 


Y 


VALOR 


DEV. EST. 






RENGLÓN 


C2 


Cl 


PRED. Y 


PRED. Y 


RESIDUO 


RES. EST. 


1 


2.95 


18.500 


17.323 


0.365 


1.177 


0.92 


2 


3.20 


20.000 


19.352 


0.410 


0.648 


0.51 


3 


3.40 


21.100 


20 . 976 


0.612 


0.124 


0.11 


4 


3.60 


22.400 


22.600 


0.860 


-0.200 


-0.20 


5 


3.20 


21.200 


19.352 


0.410 


1.848 


1.46 


6 


2.85 


15.000 


16.511 


0.435 


-1.511 


-1.21 


7 


3.10 


18.000 


18.540 


0.353 


-0.540 


-0.42 


8 


2.85 


18.800 


16.511 


0.435 


2.289 


1.83 


9 


3.05 


15.700 


18.134 


0.343 


-2.434 


-1.90 


10 


2.70 


14.400 


15.293 


0.589 


-0.893 


-0.75 


11 


2.75 


15.500 


15.699 


0.533 


-0.199 


-0.16 


12 


3.10 


17.200 


18.540 


0.353 


- 1 . 340 


-1.05 


13 


3.15 


19.000 


18.946 


0.376 


0.054 


0.04 


14 


2.95 


17.200 


17.323 


0.365 


-0.123 


-0.10 


15 


2.75 


16.800 


15.699 


0.533 


1.101 


0.91 



FIGURA 13.4 Listado de computadora para el análisis de regresión lineal (datos de los sala- 
rios iniciales) 
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13.8 Correlación lineal 

En la sección 6.4 se definió el coeficiente de correlación p dado por (6.14), como 
una medida de la asociación lineal que existe entre las variables aleatorias A" y y. En 
esta sección se examinará el coeficiente de correlación de la muestra en el contexto 
del análisis de regresión. 

Durante toda la presentación del análisis de regresión se ha asumido la disponibi- 
lidad de una muestra aleatoria de la variable respuesta Y,, Y 2 Y„, correspon- 
dientes a n valores fijos x , , x 2 , . . . , x„ de una variable de predicción . Para definir 
el coeficiente de correlación de la muestra, se supondrá que tanto X como Y son varia- 
bles aleatorias. Sea la distribución conjunta de X y y la normal bivariada (véase la sec- 
ción 6 . 8) , y sean (X i ,Y i ),(X 2 ,Y 2 ) (X n , Y„) una muestra aleatoria de tamaño n 

de esta distribución. Entonces puede demostrarse que el estimador de máxima vero- 
similitud de p (denominado coeficiente de correlación de la muestra), está dado por 



2 iX t - X)(Y ¡ - Y) 



r*(X, Y) = 



2 (X - x? 



1/2 



I, (Y, -Y) 2 



1/2 



(13.27) 



Después de efectuar algunos cálculos algebraicos, puede obtenerse una expresión 
equivalente de la forma 



2 X?, 



2 *,) (l y) 



r(X, Y) = 



S*, 2 



2x, 



1/2 



5>, 2 - 



2 Y, 



1/2 



(13.28) 



Al igual que el parámetro p, r se encuentra en el intervalo -1 srs ly mide la 
relación lineal entre X y Y, si X se emplea para predecir yo viceversa. Con base en 
una muestra aleatoria, un valor de r = - 1 indica una relación lineal negativa per- 
fecta entre X y Y, mientras que un valor de r = 1 señalará una asociación lineal 
positiva perfecta de X y Y. Si r = 0, entonces no existe ninguna relación lineal entre 
Xy Y. En la figura 13.5 se muestran algunas gráficas de dispersión comunes para al- 
gunos valores de r. 

A causa de varias interpretaciones injustificables que ha sufrido r, es imperioso 
que el lector comprenda que r por sí mismo no puede ni probar ni desmentir una re- 
lación causal entre X y Y, aun si r = ± 1 . Como ya se indicó al principio de este 
capítulo, la manifestación de una relación causa-efecto es posible sólo a través de la 
comprensión de la relación natural que existe entre Xy Y,y ésta no debe manifestar- 
se sólo por la existencia de una fuerte correlación entre Xy Y. 



* Se seguirá la norma de utilizar una r minúscula. 
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r=0 



.,«**•%. 



# 



% 

r = Q Ó. 



r = — ] 



/• = 0.9 



FIGURA 13.5 Gráficas de dispersión comunes para algunos valores de r 



Mientras que en el análisis de regresión se supone que los valores de x son fijos, el 
coeficiente de correlación de la muestra definido por (13.27) o (13.28) es todavía un 
estimador de p. Dado que r mide el grado de asociación lineal entre x y Y, y ya que 
B, es el correspondiente estimador de mínimos cuadrados de la pendiente para el 
modelo lineal propuesto entre x y Y, entonces debe existir una relación entre r y B l . 
Mediante el empleo de la segunda ecuación de (13.6) y (13.27), puede demostrarse 
que el estimador de mínimos cuadrados de la pendiente y el correspondiente valor 
del coeficiente de correlación de la muestra se encuentran relacionados por 



A. = 



2 (y, - y> : 
2 (-t, - *f 



r. 



(13.29) 



Nótese que si /• = 0. />, = y viceversa. Además, el signo de b { siempre es igual al 
de r. Finalmente, el cuadrado del coeficiente de correlación de la muestra es el coefi- 
ciente de determinación, es decir, si r y b ] son conocidos, entonces se sabe el valor 
de r y su signo; por lo tanto, se sigue que r no sólo es una medida del grado de aso- 
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dación lineal entre dos variables, sino que puede emplearse una función de r como 
una medida de la bondad del ajuste para una ecuación estimada de regresión. 



13.9 Seríes de tiempo y autocorrelación 

En las secciones anteriores se han examinado los análisis de regresión y de correla- 
ción con base en una muestra aleatoria de la variable respuesta Y. En muchas situa- 
ciones, por ejemplo en economía y finanzas, la variable respuesta se mide en forma 
periódica con respecto al tiempo. Por ejemplo, puede escogerse examinar la tasa de 
desempleo para los pasados 24 meses, o puede observarse el volumen de ventas tri- 
mestral de alguna compañía y compararlo con el correspondiente volumen de ventas 
de toda la industria durante los pasados 12 trimestres. Dado que para ambos 
ejemplos las observaciones se registran de manera secuencial con el paso del tiempo, 
forman lo que se conoce como una serie de tiempo. 

Aunque los métodos de regresión pueden ser útiles al analizar datos de series de 
tiempo, las observaciones de y en una serie de tiempo no pueden considerarse como 
representativas de una muestra aleatoria. De hecho, pueden encontrarse correlacio- 
nadas entre sí. Por ejemplo, es probable que el cambio en la tasa de desempleo para 
este mes se encuentre relacionada con la que se observará para el siguiente mes. De 
esta forma, algunas de las suposiciones que son necesarias para el desarrollo de pro- 
cedimientos inferenciales posiblemente no se verifiquen para los datos de una 
serie de tiempo. 

En este contexto se desea considerar un procedimiento inferencial útil, conocido 
como estadística de Durbin-Watson, para determinar si los errores en un modelo* 
lineal sencillo se encuentran correlacionados en el tiempo. Los errores del mismo 
modelo de regresión que se encuentran correlacionados como funciones del tiempo 
reciben el nombre de correlacionados serialmente o autocorrelacionados. Antes de 
analizar el procedimiento de Durbin-Watson, se mencionarán en forma breve los 
componentes usuales de datos de una serie de tiempo. 

13.9.1 Componentes de una serie de tiempo 

Las fluctuaciones de la variable respuesta en una serie de tiempo de tipo económico 
se asignan, por lo general, a cuatro causas diferentes (componentes): la variación en 
la tendencia T, la variación por temporada 5, la variación cíclica C y la variación 
aleatoria R. la variación en la tendencia es el movimiento a largo plazo en Y. Por 
ejemplo, la producción de automóviles en Estados Unidos ha mostrado una tenden- 
cia hacia el crecimiento durante los últimos 50 años, pero lo anterior no necesaria- 
mente implica que la producción aumentó todos los años durante este periodo. De 
esta forma, la tendencia refleja el movimiento general de Y a lo largo de un periodo. 
La variación por temporada representa el movimiento de Y que ocurre durante pe- 
riodos específicos a lo largo de un año. Por ejemplo, el volumen de ventas al menu- 
deo tiende a ser mayor en el último trimestre del año que durante el primero. La va- 

* También puede emplearse este procedimiento para el modelo lineal general, el cual se estudiará en el ca- 
pitulo 14. 
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nación cíclica muestra el movimiento de Y que se repite durante periodos que, en 
general, son mayores de un año. Los movimientos cíclicos se encuentran muchas 
veces relacionados con las condiciones económicas prevalecientes. Por ejemplo, la 
construcción de casas en Estados Unidos disminuyó durante el periodo de recesión 
de 1974-1975; aumentó durante el de recuperación de 1976-1979 y volvió a disminuir 
en la recesión de 1981-1982. La variación aleatoria en una serie de tiempo es la fluc- 
tuación de Y que no es posible asignar a una causa identifícable. Por lo tanto, la 
fluctuación total de Y con respecto al tiempo se asigna a una variación sistemática 
(tendencia, temporada y ciclo) y a una variación aleatoria. 

AI suponer cómo se encuentran relacionadas estas componentes, puede formu- 
larse un modelo de una serie de tiempo que ayudará a separar estas componentes y 
formular predicciones con respecto a Y. Los modelos de las series de tiempo usual- 
mente son aditivos de la forma 

Y=T+S+C+R 

o multiplicativos de la forma 

Y=TxSxCxR. 

Para un modelo aditivo se supone que los cuatro componentes son independientes 
entre sí, mientras que para el multiplicativo se encuentran relacionados entre sí. 
Para tratamientos completos del análisis de las series de tiempo se sugieren las refe- 
rencias [1] y [4]. 

13.9.2 La estadística de Durbin-Watson 

En esta sección el interés radicará, en forma exclusiva, en la detección de errores 
autocorrelacionados y en un análisis con respecto a medidas correctivas. Una de las 
razones de la existencia de la autocorrelación es que podrían no haberse tomado en 
cuenta en el modelo variables importantes de predicción. Por ejemplo, se mencionó 
que, en general, la producción de automóviles tuvo un incremento durante un perio- 
do de 50 años. Si se supone algún modelo de regresión con el tiempo como la única 
variable de predicción, no es de dudar que se encontrarán correlaciones entre los 
errores. Pero durante el mismo periodo aumentó la población así como el nivel eco- 
nómico de los habitantes de Estados Unidos. Cuando variables de predicción como 
éstas están positivamente correlacionadas con la producción de automóviles, pero 
no se toman en cuenta en el modelo de regresión, entonces los errores tenderán a 
estar positivamente autocorrelacionados, ya que también reflejan los efectos de las 
variables de predicción faltantes. Este tipo de autocorrelación sólo es aparente y 
puede eliminarse mediante la inclusión de las variables omitidas en el modelo de re- 
gresión. 

En las series de tiempo económicas, la autocorrelación también puede presentarse 
debido a que los residuos sucesivos tienden a estar positivamente correlacionados, es 
decir, los grandes residuos negativos siguen a grandes residuos negativos y los grandes 
residuos positivos siguen a grandes residuos positivos. Este tipo de autocorrelación es, 
en general, la clase que necesita algún ajuste. El interés recaerá en este tipo y se estu- 
diarán las medidas correctivas tales como la transformación de los datos. 
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Recuérdese que por la suposición 3 de la sección 13.2, la covarianza entre los 
errores aleatorios e¡ y e, es cero para todo / ^ j. A pesar de que esta suposición no 
es necesaria para obtener los estimadores de mínimos cuadrados, su violación afecta 
las propiedades inferenciales de estos estimadores. Cuando se encuentra presente la 
autocorrelación, el análisis de regresión es afectado en tres formas. 

1 . Los estimadores MC, aunque son no sesgados ya no tienen varianza mínima. 

2. Los estimados s 2 (B¡) pueden subestimar, en forma seria, las varianzas de los esti- 
madores MC de B¡. 

3. Los intervalos de confianza y las pruebas de hipótesis que incluyen, ya sea la dis- 
tribución t de Student o la distribución F, no son teóricamente válidas. 

Por ejemplo, supóngase que los datos que figuran más adelante representadas las 
ventas Y de alguna compañía (en millones de dólares) y las ventas x (también en mi- 
llones de dólares) para toda la industria en los pasados 16 trimestres, dondv lo. datos 
ya se han ajustado de acuerdo con la inflación. 



t 


1 


2 


3 


4 


5 


6 


7 


8 


x, 
Y, 


270.36 
44.84 


258.38 
42.97 


254.96 
41.98 


259.70 

42.75 


265.40 
43.95 


274.98 
45.65 


281.86 
46.87 


285.78 
47.35 



t 


9 


10 


11 


12 


13 


14 


15 


16 


x, 

y, 


290.58 
48.13 


290.18 
47.95 


296.72 
49.10 


292.32 
48.52 


301 .72 
50.22 


305.42 
51.15 


314.% 

52.78 


321.10 
53.91 



Una gráfica de y contra x revela una tendencia lineal, lo que a su vez sugiere que las 
acciones de la compañía se mantienen en el mercado. Supóngase un modelo lineal 
simple como el dado por (13.1). El listado de computadora producido por Minitab, 
se muestra en la figura 13.6 

Nótese que parece que el modelo ajusta los datos en forma excelente, ya que r ¿ = 
0.997, y se rechaza la hipótesis nula de pendiente igual a cero para casi cualquier 
nivel a. Las desviaciones estádar estimadas para B y B, son pequeñas, y en forma 
especial para el estimador de la pendiente. Pero al graficar los residuos estandariza- 
dos contra el tiempo, como se muestra en la figura 13.7, se nota que los residuos del 
mismo signo aparecen agrupados. Por ejemplo, los residuos 5-7 son positivos, 8-13 
son negativos y 14-16 son positivos. Este tipo de patrón es característico cuando se 
tienen errores autocorrelacionados. 

La estadística de Durbin-Watson constituye un enfoque más formal que al grafi- 
car los residuos para detectar los errores autocorrelacionados; se basa en la suposi- 
ción de que los errores e, en el modelo de regresión 

Y, = B + B,x, + s, (13-30) 

forman una serie autorregresiva de primer orden dada por 

e, = pe,_, +17, f Sí 2, (13.31) 
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LA ECUACIÓN DE REGRESIÓN ES 

Y = - 2 . 97 + . 177 XI 



COLUMNA 



COEFICIENTE 

-2.9716 
0.176510 



DEV. EST. 
DEL COEF. 

0.7023 
0.002456 



XI C2 

LA DEV. EST. DE Y CON RESPECTO A LA RECTA DE REGRESIÓN ES 

S = 0.1919 

CON (16 - 2) = 14 GRADOS DE LIBERTAD 

R-CUADRADO = 99.7% 
ANÁLISIS DE VARIANZA 



COCIENTE-T = 
COEF/D.E. 

-4.23 
71.86 



DEBIDO A 


DF 


SC 


CM = 


= SC/GL 




REGRESIÓN 


1 


190.2330 


190 


2330 




RESIDUO 


14 


0.5157 





0368 




TOTAL 




15 


190 . 7487 










XI 


Y 


VALOR 


DEV. EST. 






ENGLOI 


S[ C2 


Cl 


PRED. Y 


PRED. Y 


RESIDUO 


RES. EST. 


1 


270 


44 . 8400 


44 . 7497 


0.0604 


0.0903 


0.50 


2 


258 


42.9699 


42 . 6350 


0.0816 


0.3349 


1.93 


, 3 


255 


41.9800 


42.0314 


. 0886 


-0.0515 


-0.30 


; 4 


260 


42.7499 


42 . 8680 


. 0790 


-0.1181 


-0.68 


5 


265 


43 . 9499 


43 . 8742 


. 0684 


0.0758 


0.42 


6 


275 


45.6500 


45.5651 


. 0542 


. 0848 


0.46 


7 


282 


46 . 8699 


46.7795 


. 0487 


0.0904 


0.49 


8 


286 


47 . 3499 


47 . 4714 


. 0480 


-0.1215 


-0.65 


9 


291 


48.1299 


48.3187 


. 0497 


-0 . 1887 


-1.02 


10 


290 


47 . 9499 


48 . 2481 


. 0495 


-0 . 2981 


-1.61 


11 


297 


49 . 0999 


49.4025 


0.0556 


-0.3025 


-1.65 


12 


292 


48.5200 


48.6258 


0.0510 


-0 . 1059 


-0.57 


13 


302 


50.2199 


50 . 2850 


0.0627 


-0.0651 


-0.36 


14 


305 


51.1500 


50.9381 


. 0689 


0.2119 


1.18 


15 


315 


52.7800 


52.6220 


. 0873 


. 1579 


0.92 


16 


321 


53.9100 


53.7058 


0.1002 


. 2042 


1.25 


FIGURA 13.6 


Análisis de ref 


;resión lineal (dat 


os del mercado de acciones) 





donde \p\ < 1 es la pendiente de la recta que pasa por el origen y r¡, es el error alea- 
torio puro que no se encuentra correlacionado con cualquier otra componente. El 
término Vi se denomina de manera común como ruido blanco. Debe notarse que 
(13.31) es un modelo autorregresivo, ya que la variable de predicción e,^ , es un tér- 
mino retardado en el tiempo de la variable respuesta e, . A pesar de que la estructura 
de correlación entre los errores puede ser más compleja que la implicada por (13.31), 
un modelo autorregresivo de primer orden es una aproximación razonable, debido a 
que muchas veces la autocorrelación entre e, y e, +/) disminuye de manera rápida 
conforme la distancia entre los puntos en el tiempo l y t + p aumenta. 
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FIGURA 13.7 Residuos estandarizados contra tiempo para el ejemplo de las ventas 

Para el modelo dado por (13.31), se desea emplear la estadística de Durbin- 
Watson para probar la hipótesis nula 

tf :p = 

contra la alternativa 

//,: p > 0. 

Nótese que H ] es una hipótesis alternativa unilateral superior, ya que las series de 
tiempo económicas exhiben muchas veces una autocorrelación positiva. La estadísti- 
ca de Durbin-Watson se basa en los residuos que resultan después de obtener la 
ecuación de regresión estimada para (13.30). Se calcula un valor de esta estadística a 
partir de la expresión 

d = !^— H , (13.32) 

le; 
donde el residuo es e, = v. - v.. 
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Si los errores se encuentran positivamente autocorrelacionados, es probable que 
los errores adyacentes tengan la misma magnitud. De esta forma, pequeñas diferen- 
cias entre los residuos adyacentes sugieren que p es mayor que cero; pero cuando las 
diferencias son pequeñas, el numerador de (13.32) también lo es. De acuerdo con lo 
anterior, se rechaza la hipótesis nula de autocorrelación cero siempre que d tiene un 
valor relativamente pequeño. 

Durbin y Watson tabularon los límites inferior y superior d L y d u , respectiva- 
mente, para probar // . En la tabla K del apéndice se proporcionan los límites d L y 
dy para a = 0.05 y 0.01 como funciones del tamaño n de la muestra y el número k 
de variables de predicción en el modelo de regresión. Dados los límites d L y d v ,la 
decisión para H se toma de la siguiente forma: 

a Si d < d L , rechazar H , 

b Si d > du , no puede rechazarse //<> , 

C Si d¡ < d < d L ,, la prueba no es concluyeme. 

Debe señalarse que la prueba para autocorrelación negativa (H¡: p < 0) tam- 
bién es posible con la estadística de Durbin- Watjon. En este caso, el valor de la 
estadística es 4 - d, donde d se calcula de acuerdo con (13.32). El procedimiento de 
decisión es igual al ya dado, comparando 4 - d con d L o du . En cualquier caso, si la 
prueba es no concluyente, la alternativa que se sugiere es tomar más observaciones. 

Para el ejemplo se calcula d primero, con lo que se obtienen las diferencias e, - 
e t - x , mediante el uso de la columna de residuos dada en el listado de computado- 
ra. Estas diferencias son las siguientes: 





t 


2 


3 


4 


5 


6 


e, 


- e,. y 


0.2446 


-0.3864 


-0.0666 


0.1939 


0.0090 




t 


7 


8 


9 


10 


11 


e, 


- *,-l 


0.0056 


-0.2119 


-0.0672 


-0.1094 


-0.0044 




t 


12 


13 


14 


15 


16 



e, - e,. 



0.1966 0.0408 0.2770 -0.0540 0.0463 



Mediante el empleo de (13.32) se obtiene 

d = 0.434789/0.5157 = 0.843. 

Por ejemplo, a = 0.05; entonces para el modelo lineal simple (13.30) y re = 16, 
los límites son d L = 1.10 y d L , = 1.37. Dado que d < d L , se rechaza la hipótesis 
nula y se concluye que existe una razón para creer que los errores en (13.30) se en- 
cuentran autocorrelacionados. 
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13.9.3 Eliminación de la autocorrelación mediante 
la transformación de datos 

Cuando se rechaza la hipótesis nula de autocorrelación cero, debe ajustarse la 
ecuación estimada de regresión para compensar la presencia de errores autocorrela- 
cionados. A continuación se mostrará un enfoque debido a Cochrane y Orcutt.* Se 
basa en un método iterativo el cual incluye la transformación de las variables res- 
puesta y predicción en el modelo original de regresión. 

Para el modelo dado por (13.30), considérese la transformación 

r, = Y, - P Y,. t . (13.33) 

Al sustituir en (13.33) Y, y K,_,, de acuerdo con (13.30), se tiene que 
Y', = (/3 + fax, + e,) - p(A, + £,*,_, + e,_,) 
= /3„(1 - p) + fi,(x, - p*,_,) + (e, - pe,-,). 

Pero de (13.31) 

e, - pe,., = 17, 

donde rj, son errores aleatorios no correlacionados. Entonces 

Y', = /3 (l - p) + P,(X, - pX,_ } ) + 7),, 

o 

Y' =j8S + p[x' r + -,,„ (13.34) 

donde /3¿ = A)0 _ P). P\ = P¡,y x', = x, — px lU De acuerdo con lo anterior, 
los errores en el modelo lineal simple transformado (13.34) no están correlacionados 
entre sí, y de esta forma este modelo satisface las suposiciones estándar. 

Nótese que las observaciones transformadas Y', — Y, - pY,_ t y x\ = x, — 
px,- 1 son funciones de la autocorrelación desconocida p, así que antes de ajustar el 
modelo transformado debe obtenerse un estimador de p. Lo anterior puede hacerse 
mediante el empleo de los residuos obtenidos de la ecuación de regresión estimada 
originalmente para calcular un estimador MC de la pendiente p en el modelo auto- 
rregresivo de primer orden dado por (13.31). Ya que este modelo tiene una intersec- 
ción igual a cero, el estimador MC, r de la pendiente p basado en el análisis de la 
sección 13.3, es 

n 

r = ^ , (13.35) 

5>í 



*D. Cochrane y G. H. Orcutt, Application ofleast squares regression lo relationships conlaining autocorrelaled 
error terms, i. Amer. Statistical Assoc. 44 (1949), 32-61. 
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y los valores transformados son 



y, = y,- ry,-i, 

x' t = x, — rjt,_|. 



(13.36) 



Dados los valores transformados para las variables de respuesta y predicción, el 
procedimiento iterativo consiste en determinar la ecuación de regresión estimada 
para el modelo transformado y entonces volver a calcular la estadística de Durbin- 
Watson. Si no es posible rechazar la hipótesis nula de autocorrelación cero, el proce- 
dimiento llega a su fin. De otra forma, se repite hasta que H no pueda rechazarse. 
Si se requiere más de una iteración, entonces se sugiere buscar otros procedimientos 
alternativos. 

Como ejemplo, el estimado MC de.p para el ejemplo de las ventas es 

r = O.z/34/0.5157 = 0.53, 
y los valores transformados son los siguientes: 



x\ 


115.09 


118.02 


124.57 


127.76 


134.32 


136.12 


136.39 


139.12 


r t 


19.20 


19.21 


20.50 


21.29 


22.36 


22.68 


22.51 


23.03 


t 


10 


11 


12 


13 


14 


15 


16 




x; 


136.17 


142.92 


135.06 


146.79 


145.51 


153.09 


154.17 




y; 


22.44 


23.69 


22.50 


24.50 


24.53 


25.67 


25.94 





El listado de computadoras que se obtiene mediante el empleo de Minitab* para 
el modelo transformado se muestra en la figura 13.8. Nótese que el listado también 
incluye el valor de d = 1.61 para la estadística de Durbin-Watson; Minitab propor- 
ciona este valor como parte del listado. Para n = 15 y a = 0.05, se obtienen los lí- 
mites d L = 1.08 y d v = 1.36 al consultar la tabla A'. Dado que d > d v , no es po- 
sible rechazar la hipótesis nula de autocorrelación cero. 

Ahora, es necesario escribir la ecuación de regresión estimada en términos de las 
variables originales y ajustar las desviaciones estándar estimadas de B y B, para re- 
flejar la eliminación de los errores autocorrelacionados. Dado que j3¿ = j3 (l - p) 
y )3¡ = B,, los estimadores MC de fio y )3, son 



¿0 = 



b' a 



-1.5178 



(1 - r) (1 - 0.53) 



= -3.2294, 



b, = b\ = 0.1774. 



* Se ha omitido una porción del listado que incluye los valores de las variables de respuesta y predicción, 
residuos, etc. 
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LA ECUACIÓN DE REGRESIÓN ES 

Y =■ -1.52 + 0.177 XI 



COLUMNA 



COEFICIENTE 

-1.5178 
. 177407 



DEV. EST. 
DEL COEF. 

0.5176 
. 003784 



XI C2 

LA DEV. EST. DE T CON RESPECTO A LA RECTA DE REGRESIÓN ES 

S = 0.1627 

CON (15 - 2) = 13 GRADOS DE LIBERTAD 

R-CUADRADO = 99.4% 



COCIENTE-T = 
COEF/D.E. 
-2.93 
46.88 



ANÁLISIS DE VARIANZA 






DEBIDA A 


DF 




SC 


REGRESIÓN 


1 


58 


16086 


RESIDUO 


13 





34401 


TOTAL 


14 


58 


50485 



ESTADÍSTICA DE DURBIN-WATSON =1.61 



CM = SC/GL 

58.16086 
0.02646 



FIGURA 13.8 Análisis de regresión lineal después de la transformación de los datos por 
autocorrelación 



Para los estimadores B¡, y B\ del listado de la figura 13.8, se nota que sus desvia- 
ciones estándar estimadas son s(BÓ) = 0.5176 y s(B\) = 0.003784. Por lo 
tanto, para las desviaciones estándar estimadas de B y 5,, se tiene 



s(B ) 



Bó 



_(1 - r) 
s(B t ) = s(B[) = 0.003784. 



í(5¿)/(1 -r) = 1.1013, 



En la tabla 13.7 se encuentra un resumen de la información pertinente para las ecua- 
ciones de regresión estimadas original y final para los datos de ventas. Nótese que a 
pesar de que el cambio en los valores estimados de los coeficientes es pequeño, existe 
un considerable aumento en las desviaciones estándar estimadas de B u y B t , y en 



TABLA 13.7 Resumen de la información para los datos de ventas 


Ecuación original estimada 


Ecuación final estimada 


v, = - 2.9716 + 0.1765*, 


v, = - 3.2294 + 0.I774.V, 


s(B„) = 0.7023, s(B,) = 0.002456 


s(B ) = 1.1013, s(B t ) = 0.003784 


CME = 0.0368 


CME = 0.0265 


r = 0.997 


r = 0.994 
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forma especial para B r Pero la varianza residual (CME) ha disminuido. En este 
ejemplo, la autocorrelación aparente no fue lo suficientemente fuerte como para 
causar diferencias sustanciales en la inferencia. Cuando ocurre lo contrario, es pro- 
bable que se noten diferencias muy drásticas. 



13.10 Enfoque matrícial para el modelo lineal simple 

El uso del álgebra de matrices proporciona un medio conveniente para el análisis de 
regresión de modelos lineales, en forma especial de aquellos que contienen más de una 
variable de predicción. Se ilustrará el uso del álgebra de matrices mediante el examen 
del modelo lineal simple. Para una breve revisión de los fundamentos del álgebra de 
matrices, se invita al lector a que consulte el apéndice que se encuentra al final de este 
capítulo. 

Para los n pares (.v,, Y t ), (x 2 , K : ), .... (x„, Y„), el siguiente modelo lineal simple 



En otras palabras, 



Y, = /3„ + /3,jr,. + e, / = 1, 2, ..., n. 

r, = j8 + /Vi + «i 
Y 2 = j8 + j3,jr 2 + e 2 

Y n = /3 + j3,jr„ + e„ 



son n ecuaciones lineales para las que Y, , Y 2 , . . . , Y„ son las observaciones de la res- 
puesta para los correspondientes valores fijos x t , x 2 , . . . , x„ de la variable de predic- 
ción, e | , E-, , . . . , e„ son los errores aleatorios no observables y A, y /3, son los pará- 
metros por estimarse. Si se definen las matrices 



entonces 



~YC 




"1 x t ~ 








£| 


Y 2 


X - 


1 x 2 


P = 


A>~ 


£ = 


e ; 


Jn_ 




1 x„_ 








_ e "- 



~YC 




"1 .V," 


"j3o" 




El 




Y 2 


= 


1 x 2 


jV 


+ 


^2 


= 


-Y«. 




J x„_ 






- e "_ 





fi + j3,jr, + e,' 
A, + j8,.r 2 + e 2 

fia + /3i-v„ + e„. 



Como resultado se tiene que el modelo lineal simple puede expresarse en la nota- 
ción de matrices 



X0 



e. 



(13.37) 



< '% 
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Si se supone el caso de la teoría normal, entonces e es un vector de variables aleato- 
rias normales, tal que 

E{e) = 0, 

Var{é) = <t 2 1 

donde cr 2 es la varianza del error, común a todos ellos, e I es la matriz de identidad 
correspondiente. 

Ahora, considérese la estimación de mínimos cuadrados de A> y /3, • Recuérdese 
que las ecuaciones normales están dadas por (13.4). Dado que 



XX 



1 1 

X, X 2 



1 
X„J 



1 x,- 

1 X 2 

1 x„ 



n 1,x¡ 
LXt, Lx 2 . 



(13.38) 



iie 



entonces 

(XX B = 



X'Y = 



n Sjc, 
2jc, 2x, 2 J 



1 1 

*i x 2 

B 
B, 





~YC 




1 " 


Y 2 




ZY, 


X n - 






-2.r,T,- 




Jn_ 





nB + fl.Sx, 
iB^x, + B^xJ] 



2x¡Yi. 



Por lo tanto, las ecuaciones normales en forma matricial son 

(X'X)B = X'Y, 



donde 



B 



B 
B, 



(13.39) 



= X'Y. 



(13.40) 



es el vector que contiene los estimadores de mínimos cuadrados B y) y B, . 
Si se supone que la matriz cuadrada X'X tiene inversa, entonces en (13.40) 

(X'Xr '(X'X)B = (X'X) 'X'Y, 
o 

IB = (XX) 'X'Y, 



B = (X'X)" 'X'Y 



(13.41) 



es la expresión matricial para obtener los estimadores de mínimos cuadrados B u y B, . 

Al emplear los datos correspondientes al ejemplo de salarios inciales, se ilustrará 

que la expresión dada por (13.41) proporciona los mismos estimadores de mínimos 
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cuadrados para A> y /3i obtenidos con anterioridad. El vector Y de salarios iniciales 
y la matriz X correspondiente a las calificaciones promedio son 



Y = 



18.5" 
20.0 
21.1 

16.8 



X = 



"1 


2.95" 


1 


3.20 


1 


3.40 


1 


2.75_ 



El lector debe notar que los números uno que se encuentran en la primera columna 
de X representan la intersección )3 definida de acuerdo con el modelo lineal simple 
propuesto. Al seguir con el cálculo se tiene 



CX'X) 



1 1 

2.95 3.20 



1 

2.75. 



1 2.95" 
1 3.20 

1 2.75 



15 45.6 
.45.6 139.51 



X'Y = 



1 1 

2.95 3.20 



1 

2.75. 



18.5 
20.0 

16.8 



270.8 
830.425. 



La inversa de la matriz de 2 x 2 es igual a 

1 



CX'X)"' = 



13.29 



139.51 -45.6 
-45.6 15 . 



Para evitar la posibilidad de graves errores por redondeo, lo mejor es no dividir 
cada elemento de (X'X)" ' por el valor 13.29 hasta que se efectúe el producto (X'X) 
'X'Y. Entonces, de (13.41) los estimadores de mínimos cuadrados son 



(X'X)" 'X'Y = 



13.29 



139.51 
-45.6 



45.6" 




"270.8 " 










15 




.830.425. 






1 


"-88.072" 




-6.6269" 






13.: 


19 


107.895. 




8.1185. 



o b = -6.6269 y b, = 8.1 185. Al redondear a dos dígitos significativos, estos 
valores son iguales a los ya obtenidos con anterioridad. 
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Ejercicios 

13.1. Formúlese un comentario con respecto a la causalidad p^a las siguientes situaciones: 

a) Durante los pasados 12, c'.; 15 años, el mercado de valores creció cuando el prome- 
dio global de la liga mayor de béisbol disminuyó y viceversa. 

b) Desde el primer Super Tazón en 1967, el mercado de valores aumentó durante todos 
los años en los que el equipo que ganaba el Super Tazón provenía de la vieja Liga 
Nacional de fútbol, y disminuyó durante los años en lo que el campeón era un 
equipo de la vieja Liga Americana de fútbol. 

13.2. De los siguientes modelos, ¿cuáles son lineales? 

a. Y = /3sen(jc) + e 

b. Y = ¡3, sen{/3 2 x) + e 

c. Y = A, + (3,x]x 2 + p 2 x\ + e 

d. Y = f3 + /3]x + e 

13.3. Dado el modelo lineal y, = /3jc, + e,, i = 1, 2, ..., n, supóngase que E(e¡) = 0, 
Var(e¡) = cr 2 para toda /' y Cov(e,, c,) = para toda i ■£ j. 

a) Obténgase el estimador B de mínimos cuadrados para ¡3. 

b) Determínese si B es un estimador no sesgado de P, y demuéstrese que Var(B) = cr 

13.4. Una compañía local de energía seleccionó una residencia típica para desarrollar un mo- 
delo empírico para el consumo de energía (en kilowatts por día) como una función de 
la temperatura promedio diaria durante los meses de invierno. Se obtuvo la siguiente 
información durante un periodo de 15 días. 



Temperatura (°C) 





8 


7.5 


13.5 


14 


8.5 


4.5 


-II 


Consumo de 

energía 
Temperatura (°C) 


70 
-7.5 


57 
-8.5 


60 

1.5 


63 
0.5 


57 

2 


66 
-6 


67 

-4 


107 


Consumo de energía 


96 


88 


80 


64 


79 


82 


97 





a) Grafiquense los datos. ¿Sugiere la gráfica una asociación lineal? 
¿>/Para un modelo lineal simple, obténgase la ecuación estimada de regresión y grafí- 
quese sobre la gráfica de la parte a. 
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c) Interprétense los coeficientes de regresión estimados. 

d) ¿Qué se recomendaría a la compañía para mejorar el modelo empírico? 

13.5. Una compañía de seguros desea determinar el grado de relación que existe entre el ingre- 
so familiar x y el monto del seguro de vida Y del jefe de familia. Con base en una muestra 
aleatoria de 18 familias, se obtuvo la siguiente información (en miles de dólares). 



Ingreso 



45 20 40 40 47 30 25 20 15 



Seguro de vida 70 
Ingreso 35 



50 


60 


50 


90 


55 


55 


35 


40 


40 


55 


50 


60 


15 


30 


35 


45 



Seguro de vida 65 75 105 110 120 30 40 65 80 

Repítanse todos los incisos del ejercicio 13.4. 

13.6. Dada la ecuación de regresión estimada para el ejddcL 13.4: 

a) Calcúlense los residuos. 

b) Verifiqúese que se cumplen las propiedades 2 y 3 de la sección 13.3. 

c) Obténgase la varianza residual. 

d) Calcúlense los estimadores de las desviaciones estándar de B u y B¡. 

e) Obténgase un intervalo estimado de confianza del 95% para el valor real de la pen- 
diente. 

J) Determínese si una relación lineal entre la temperatura atmosférica promedio y el 
consumo de energía es estadísticamente discernible para un nivel a = 0.05 

g) Para cada temperatura atmosférica, calcúlense los intervalos de confianza del 95% 
estimados para el uso medio de energía y grafíquense éstos contra la recta estimada 
de regresión. 

13.7. Repítanse todos los incisos del ejercicio 13.6 para la ecuación de regresión estimada del 
ejercicio 13.5. 

13.8. Con respecto al ejercicio 13.4, estímense los consumos individuales de energía para las 
siguientes temperaturas:— 10, -8, -5, -2, 1, 4, 7, 10, y 13. Obténganse intervalos 
de predicción del 95% para las estimaciones. 

13.9. Con respecto al ejercicio 13.5, estímense los montos individuales del seguro de vida 
para los ingresos anuales de 18, 28, 38, 48 y 58 y obténganse intervalos de predicción 
del 95% para sus estimaciones. 

13.10. Mediante el empleo de los datos de los ejercicios 13.4 y 13.5 

a) Llévese a cabo un análisis de varianza para cada conjunto de datos y determínese si 
se puede rechazar la hipótesis nula de no regresión lineal a un nivel de a = 0.05. 

b) Compárense los resultados de la parte a con los que se obtienen en la parte /del 
ejercicio 13.6. Formúlese un comentario sobre la relación entre el valor de la esta- 
dística F, calculado aquí, con el de la estadística T determinado en la parte / del ejer- 
cicio 13.6. 

c) Calcúlense los coeficientes de determinación y expliqúese su significado. ¿Puede 
concluirse que las verdaderas ecuaciones de regresión entre la temperatura y el con- 
sumo de energía, o entre el ingreso anual y el monto del seguro de vida, son estricta- 
mente lineales? 
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13.11. Los siguientes datos son las alturas X y los pesos y de una muestra aleatoria de 1 em- 
pleados del sexo femenino de una gran empresa. 



Altura (pulgadas) 


68 


67 


65 


68 


64 


67 


66 


65 


64 


66 


Peso (libras) 


119 


118 


129 


135 


123 


140 


125 


132 


118 


130 



a) Grafíquense los datos. 

b) Calcúlese el coeficiente de correlación de la muestra y formúlese un comentario 
sobre cualquier linealidad aparente entre la altura y el peso. 

13.12. Los siguientes datos* representan la potencia diaria, en megawatts, generada por una 
central eléctrica de servicio regional, durante el mes de agosto de 1980, y la temperatu- 
ra atmosférica en grados Fahrenheit registrada a las 1 1 a.m. en una localidad central. 



Temperatura 


99 


99 


99 


99 


99 


% 


96 


97 


97 


Potencia 
Temperatura 


153.4 
97 


141.0 
99 


143. 1 
94 


156.8 
9' 


158.7 
97 


158.5 
% 


158.7 
85 


159.6 
79 


148.3 

76 


Potencia 
Temperatura 


137.8 

84 


160.0 
90 


154.0 
76 


142.2 
78 


149.4 
81 


147.9 
90 


114.2 
93 


94.7 
90 


112.5 
% 


Potencia 
Temperatura 


123.6 
98 


131.1 
95 


119.4 
95 


111.9 
95 


103.5 


103.7 


125.4 


129.0 


135.6 



Potencia 



142.3 142.5 128.9 124.3 



a) Grafíquense los datos. 

b) Calcúlese el coeficiente de correlación de la muestra y formúlese un comentario 
sobre cualquier linealidad aparente entre la temperatura y la cantidad de potencia 
generada. 

13.13. Supóngase que se sabe que la curva de regresión entre una respuesta Y y una variable 
de predicción x es lineal. Para estimar la ecuación de regresión, se toman n/2 observa- 
ciones de Y en el extremo inferior del intervalo de valores de x y n/2 observaciones en 
el extremo superior de x. Por conveniencia, los valores extremos de x se han escalado a 
-1 y + 1. 

a) Empléese la ecuación (13.18) para obtener el intervalo para la varianza de la res- 
puesta media para cualquier punto x p de x que se encuentre dentro del intervalo 

(-1. 1). 

b) Üsese la ecuación (13.20) para obtener una expresión similar para la varianza de una 
respuesta en particular. 

c) Supóngase que se registran las siguientes observaciones: 



1 



I 



1 



1 



10 



12 



13 



20 



17 



24 



19 



* Cortesía de K. L. Fugett. 
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Úsese álgebra de matrices para obtener las estimaciones de mínimos cuadrados para 
la pendiente y la intersección. 

13.14. Supóngase que la siguiente información sobre el ingreso anual bruto x y el porcentaje 
de impuestos pagados Y, proviene de una muestra aleatoria de 14 declaraciones de im- 
puestos. 



Ingreso bruto 
(miles de dólares) 


25.6 


42.2 


57.6 


98.8 


10.4 


30.1 


40.0 


Porcentaje pagado 
en impuesto 


15.4 


16.8 


19.7 


21.7 


10.8 


15.2 


18.9 



Ingreso bruto 
(miles de dólares) 



29.3 16.1 18.0 88.2 34.0 22.1 70.0 



Porcentaje pagado 
en impuesto 



15.9 12.0 14.1 21.1 17.6 14.8 21.6 



a) Grafíquense los datos. ¿Sugiere esta gráfica una asociación lineal? 

b) Mediante la suposición de un ajuste lineal, estímese la ecuación de regresión y dibú- 
jese la recta sobre la gráfica de la parte a. 

c) Realícese un análisis de varianza, obténganse los coeficientes de determinación y co- 
méntese si se puede pensar que la ecuación de regresión estimada proporciona una 
predicción apropiada. Úsese a = 0.05. 

d) Predígase el porcentaje promedio de impuestos que pagará la gente con ingresos 
brutos de 15 y 85 mil dólares y obténganse las estimaciones de sus desviaciones es- 
tándar. 

13.15. El gerente de una industria desea determinar si existe una relación lineal entre el núme- 
ro de unidades Y, armadas por los operadores de una línea de ensamble, y el lapso x 
que transcurre antes de que se presente una falla. Con base en una muestra aleatoria de 
operadores de la línea de ensamble, se observa la siguiente información: 

Tiempo (en horas) 



Unidades ensambladas 



25,29,23,31 55,65,63,59 73,75,74,71 90,88,91,87 



a) Grafíquense los datos y coméntese el resultado. 

b) Estímese una ecuación de regresión lineal mediante el uso del álgebra de matrices. 

c) Determínese si la relación lineal es estadísticamente discernible para un nivel a = 0.01 

d) Obténgase un intervalo de confianza del 95% para ¡a pendiente. 

13.16. Los siguientes datos muestran el porcentaje de la población con cuatro o más anos de 
educación superior x, y la tasa de mortalidad infantil por cada 1 000 nacimientos Y 
para una muestra de 15 estados.* 

a) Grafíquense los datos y calcúlese el coeficiente de correlación de la muestra. 

b) Ajústese una función de regresión lineal con la tasa de mortalidad como la respues- 
ta y el porcentaje de la población con cuatro o más años de educación superior 
como la variable de predicción. Interprétese el coeficiente de regresión estimado 
para la pendiente. 

* Hammond almanac, 1981. 

















Ejercicios 


495 


X 


19.4 


12.3 


13.7 


11.0 


11.5 


16.8 


11.8 


12.8 


Y 


12.0 


15.4 


16.0 


14.2 


17.9 


11.9 


14.2 


12.7 


X 


15.3 


11.8 


11.7 


10.4 


17.5 


15.6 


16.1 




r n. 


13.8 


15.8 


13.7 


17.6 


10.1 


10.1 


12.1 





c) La regresión lineal, ¿es estadísticamente discernible para un nivel a = 0.05 ¿Cómo 
podría explicarse cualquier asociación lineal que existiese entre estas dos cantida- 
des? 

13.17. Los datos* que figuran en la tabla 13.8 consisten en información anual sobre los pre- 
cios relativos del alcohol x y el consumo per cepita en litros de alcohol absoluto Y para 
el periodo 1948-1967 en Ontario. 

a) Grafíquense los datos y calcúlese el coeficiente de correlación de la muestra. 

b) Mediante el empleo del análisis de varianza, determínese si la agresión lineal entre 
el precio relativo y el consumo per cápita es estadísticamente discernible para un 
nivel a = 0.01 

13.18. Se llevó a cabo un estudio para determinar la relación entre el número de años de expe- 
riencia a x y el salario anual Y para una profesión en particular en una región geográfi- 
ca dada. Se seleccionó una muestra aleatoria de 17 personas, las cuales ejercen esta 
profesión, y se obtuvo la siguiente información: 



TABLA 13.8 Datos de la muestra para el ejercicio 13.17 





Precio- 


Consumo 


Año 


relativo 


per cápita 


1948 


0.057 


7.09 


1949 


0.058 


7.18 


1950 


0.055 


7.23 


1951 


0.052 


7.23 


1952 


0.051 


7.32 


1953 


0.055 


7.64 


1954 


0.056 


7.73 


1955 


0.047 


7.55 


1956 


0.045 


7.91 


1957 


0.044 


7.86 


1958 


0.043 


7.% 


1959 


0.043 


7.77 


1960 


0.043 


8.14 


1961 


0.043 


8.14 


1962 


0.041 


8.23 


1963 


0.040 


8.46 


1964 


0.039 


8.73 


1965 


0.038 


8.77 


1966 


0.039 


9.18 


1967 


0.035 


8.91 



* R.E. Popham, W. Schmidt, y J. de Lint, The preven! ion of alcoholism: Epidemiológica! studies of 
Ihe effecls of government control measures, Brit. J. of Addiction 70 (1975), 125 — 144. 
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Años de experiencia 13 



16 



30 



31 



19 



20 



I 



Salario anual actual ^ 33 2 36 , , 65 %4 3M „ g 365 , 69 
(miles de dolares) 

Años de experiencia 4 27 25 7 15 13 6 10 



19.8 36.0 36.5 21.4 31.0 31.4 19.1 24.6 



Salario anual actual 
(miles de dólares) 

a) Grafiquense los datos y, con base en esta gráfica, determínese si un ajuste lineal es 
suficiente. 

b) Ajústese un modelo lineal e interprétense los coeficientes de regresión estimados. 

c) ¿Puede rechazarse la hipótesis nula de pendiente cero para un nivel a = 0.01? 

d) Estímese el salario promedio para una persona que ejerce esta profesión, la cual 
tiene 12 años de experiencia; además, calcúlese un intervalo de confianza del 99% 
para este valor. 

e) Obténganse los residuos y grafiquense contra los correspondientes años de expe- 
riencia, ¿se observa algo fuera de lo común? Expliqúese. 

13. 19. Los siguientes datos representan el producto nacional bruto x y los gastos de consumo 
y en miles de millones de dólares en 1972, para los años 1960-1980.* 



Año 


1960 


1961 


1962 


1963 


1964 


1965 


1966 


X 

Y 


737.2 
452.0 


756.6 
461.4 


800.3 
482.0 


832.5 
500.5 


876.4 
528.0 


929.3 

557.5 


984.8 

585.7 



Año 


1967 


1968 


1969 


1970 


1971 


1972 


1973 


X 

Y 


1 011.4 
602.7 


1 058.1 
634.4 


1 087.6 
657.9 


1 085.6 
672.1 


1 122.4 
696.8 


1 185.9 

737.1 


1 255.0 
768.5 



Año 


1974 


1975 


1976 


1977 


1978 


1979 


1980 


X 

Y 


1 248.0 
763.6 


1 233.9 
780.2 


1 300.4 

823.7 


1 371.7 
863.9 


1 436.9 
904.8 


1 483.0 
930.9 


1 480.7 
935.1 



a) Ajústese un modelo lineal e interprétense los coeficientes de regresión estimados. 

b) Hágase una gráfica de los residuos estandarizados contra el tiempo. ¿Se puede de- 
tectar algún patrón? 

c) Calcúlese la estadística de Durbin-Watson y determínese si los errores se encuentran 
positivamente autocorrelacionados. Úsese a = 0.05. 

d) Si la autocorrelación positiva es estadísticamente discernible, ajústese la ecuación 
de regresión estimada mediante la transformación de los datos. 

13.20. Los siguientes datos representan las ganancias de las empresas por inventario y ajustes 
al capital xy los impuestos sobre estas ganancias Y en miles de millones de dólares para 
los años 1960-1980.* Repítanse todas las partes del ejercicio 13.19. 



Año 


1960 


1961 


1962 


1963 


1964 


1965 


1966 


X 

Y 


47.6 

22.7 


48.6 
22.8 


56.6 

24.0 


62.1 

26.2 


69.2 
28.0 


80.0 
30.9 


85.1 

33.7 



* Economic report of the presiden! february 1982. 
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Aflo 


1967 


1968 


1969 


1970 


1971 


1972 


1973 


X 


82.4 


89.1 


85.1 


71.4 


83.2 


96.6 


108.3 


Y 


32.5 


39.2 


39.5 


34.2 


37.5 


41.6 


49.0 


AAo 


1974 


1975 


1976 


1977 


1978 


1979 


1980 


X 


94.9 


110.5 


138.1 


164.7 


185.5 


196.8 


182.7 


y 


51.6 


50.6 


63.8 


72.6 


83.0 


87.6 


82.3 



APÉNDICE 

Breve revisión del álgebra de matrices 

Una matriz es un arreglo rectangular de elementos en renglones y columnas. Por 
ejemplo, 



X 



x 2\ x 22 



X m\ X m2 



x u 

X 2j 



■■ X \n 
X 2n 



es una matriz que contiene m renglones y n columnas. Las entradas x ih i = 1,2,..., 
m, j = \,2, ..., n, son los elementos de la matriz X. El primer índice (i) identifica 
el renglón en el que se encuentra el elemento, y el segundo (/) la columna a la que 
pertenece. La matriz X de m renglones y n columnas se conoce como una matriz de 
orden (o dimensión) m por n. En general, una matriz se denota por una letra mayús- 
cula en negritas, mientras que la correspondiente letra minúscula designa a un elemen- 
to de ésta. Es una práctica común utilizar la siguiente notación abreviada: 

X = [x¡¡], i = 1, 2, ...,m, j=\,2,...,n 

para designar a la matriz X de dimensión m X n. 

Una matriz que contiene sólo una columna recibe el nombre vector columna, y 
una matriz formada por un renglón vector renglón. Las matrices 



Y = 



z' = U, 



zj 



son ejemplos de vectores columna y renglón, respectivamente; Y es un vector colum- 
na de n x 1, y Z' es un vector renglón de 1 x n. La razón para emplear el símbolo 
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de virgulilla en el vector renglón Z' se explicará en forma breve. Ya que un vector co- 
lumna o renglón tienen sólo un renglón o una sola columna, únicamente es necesario 
usar una notación para identificar la posición de los elementos. 

Una matriz que tiene el mismo número de renglones que de columnas recibe el 
nombre de matriz cuadrada. 



A = 



son ejemplo de matrices cuadradas. A es una matriz cuadrada de 3 x 3, y B es una 
matriz cuadrada de 2 x 2. 

El intercambio de los renglones y las columnas de una matriz X de m x n da ori- 
gen a una nueva matriz denotada por X' , de dimensión n x m que recibe el nombre 
de transpuesta de X. Por ejemplo, dada la matriz 



3 


-2 f 




10 


-3'" 





2 4 


B = 


2 


1 


3 


1 5. 









■[ 



2-3 

1 5-12 



la transpuesta de X es la matriz cuya primera columna es igual al primer renglón de 
X y cuya segunda columna es igual al segundo renglón de X, 



X' 



2 


\ 


-3 


5 





-12 



En general, dada 



X = [x¡j], /=1,2, ...,m, i=l,2, 



se tiene 



X' = [*„■], 



jf = 1, 2, ..., n, i = 1,2, ..., m. 



En otras palabras, el elemento en el /-ésimo renglón y lay'-ésima columna de X se en- 
cuentra en ely'-ésimo renglón y la /-ésima columna de la matriz transpuesta X'. La 
transpuesta de un vector columna es un vector renglón y viceversa. Por esta razón se 
acostumbra emplear el símbolo de virgulilla para denotar un vector renglón. 

Se dice que dos matrices son iguales sólo si sus correspondientes elementos son 
iguales. De esta forma, una condición necesaria para que dos matrices sean iguales 
es que tengan la misma dimensión. Por ejemplo, las dos matrices 



son iguales si 



«11 «12 






-2 





«21 «22 




B = 


5 


6 


«31 «32_ 






- 12 


-5. 


«,, = -2 


«12 = 







«2, = 5 


«22 = 


6 




«31 = 1 


2 


«32 = 


-5. 





Apéndice 499 



La suma o diferencia entre dos matrices sólo es posible cuando sus dimensiones 
son las mismas. La suma (diferencia) de dos matrices es una matriz cuyos elementos son 
las sumas (diferencias) de los correspondientes elementos de las dos matrices. Por 
ejemplo, dadas 



A + B = 
A - B = 



-2 5 
3 8 

-2 + 4 
3 + 2 



B = 



4 -3 
2 -6 



2 2 
5 2 



-2-4 5 - (- 
3-2 8 - (- 



3) 
6) 



6 8 
1 14 



Dadas dos matrices A y B, la matriz producto AB se define sólo si el número de 
columnas de A es igual al número de renglones de B. Entonces, si A es de m x nyB 
es de n x p, el producto AB es una matriz de dimensión m x p para la que el ele- 
mento que se encuentra en el /-ésimo renglón y la y-ésima columna es igual a la su- 
ma de los productos de los elementos que se encuentran en el /-ésimo renglón de A y 
lay'-ésima columna de B. Si 



1 -2 

-3 4 

-1 



B = 



-2 1 
4 3 



AB = 



1 


-2~ 


r 


-. 






-2 


1 




3 


4 


4 


3 


= 





-1. 






10 


-5' 






22 


9 






-4 


-3 







(1)( -2) + (-2)(4) 

(-3X-2) + (4X4) 

(OX-2) + (-1X4) 



(1)(1) + (-2)(3) 

-3)(1)+ (4)(3) 

(0)(1) + (-1X3). 



Nótese que para este par de matrices el producto BA no está definido; en general, la 
multiplicación de matrices no es conmutativa. También es interesante notar que si Y 
es un vector columna de n x 1 y Y' es un vector renglón de 1 x n, entonces Y Y' es 
una matriz cuadrada de dimensión n y Y' Y es un escalar. Un escalar es cualquier nú- 
mero de la recta real (-=<=, =<=). La multiplicación de una matriz por un escalar da 
origen a una matriz cuyos elementos son los productos de los correspondientes ele- 
mentos originales y la cantidad escalar. Por ejemplo, dada 



A = 



■2 1 
3 4 



-5A = 



(-5)(-2) (-5)(1) (-5X-2) 
(-5)(3) (-5)(4) (-5X1) 



10 -5 
-15 -20 



10 

-5 
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Existen ciertas matrices especiales que vale la pena mencionar. Una matriz cua- 
drada de dimensión n cuyos elementos son cero excepto los que se encuentran sobre 
la diagonal principal,* elementos iguales a uno, recibe el nombre de matriz identidad 
de orden n. Por ejemplo, 



I = 



1 
1 



I = 



1 o 
1 o 
1 



son matrices identidad de orden 3 y 2, respectivamente. En la multiplicación de ma- 
trices cuadradas, la matriz identidad juega el mismo papel que el número 1 tiene en 
la multiplicación entre escalares. Esto es, dada cualquier matriz A, el producto de la 
correspondiente matriz identidad y A da como resultado la matriz A, siempre que 
exista compatibilidad para llevar a cabo la multiplicación. De esta forma, 

IA = AI = A. 

Se dice que una matriz cuadrada es simétrica, si es igual a su transpuesta. Dada 
cualquier matriz cuadrada A, si A = A', entonces A es simétrica. Por ejemplo, 



A = 



2 1 -2 

1 4 3 

■2 3 1 



es una matriz simétrica. Nótese que los elementos que se encuentran formando un 
triángulo por debajo de la diagonal principal son idénticos a los correspondientes en 
el triángulo que se encuentra por encima de la diagonal principal. Si una matriz A de 
m x «se premultiplica por su transpuesta, la matriz producto será simétrica. De 
esta forma, A'A es una matriz simétrica de orden n. Por ejemplo, dadas 



A = 



A'A 



2 1 
1 4 

3 2 



2 1 3 
1 4 2 



A' = 

2 f 
1 4 

3 2 



2 1 3 
1 4 2 



14 12 
12 21 



Una matriz diagonal es cualquier matriz cuadrada para la que todos los elemen- 
tos que se encuentran fuera de la diagonal principal son cero. 



A = 



es una matriz diagonal. Debe ser evidente que la matriz identidad es un caso especial 
de una matriz diagonal. 



"4 


0" 


3 








7 



• La diagonal principal contiene los elementos cuyas posiciones en el renglón y la columna son las mis- 
mas. 
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Un vector cero es cualquier vector columna para el que todos sus elementos son 



cero. 



= 



es un vector cero de 4 x 1 . 

A continuación se define un concepto importante en el álgebra matricial, que se 
conoce como la inversa de una matriz cuadrada. Sea A una matriz cuadrada de 
orden n. Si existe una matriz denotada por A- 1 , tal que 

A"'A = AA _I = I 

donde I es la correspondiente matriz Identidad, entonces A~ ' es la única matriz in- 
versa de A. Si "na matriz cuadrada tiene inversa, se dice que es no singular, de otra 
forma, recibe el nombre de matriz singular. 

Para cada matriz cuadrada, es posible definir y calcular una cantidad escalar que 
se conoce como el determinante de la matriz. El valor del determinante de una matriz 
cuadrada es el factor para decidir si ésta tiene o no inversa. Sea A cualquier ma- 
triz cuadrada. Si el determinante de A, denotado por det(A) no es igual a cero, existe 
la matriz inversa de A. Si det(A) = 0, entonces A es singular. La noción de una 
matriz inversa es el análogo del inverso multiplicativo en el álgebra de escalares. 

Como ilustración, se encontrará la inversa de matrices sólo para el caso de 2 x 2. 
En general, sea 



A = 



«21 



«12 
«22 



cualquier matriz de 2 x 2. El determinante de A se define como 

det(A) = a,, a 22 - a ]2 a 2l 
y puede demostrarse que la matriz inversa de A está dada por 



A" 1 = 



a 22 
det(A) 

«21 



a 



12 



det(A) 



det(A) det(A) 



Por ejemplo, dada 



A = 



2 3 
1 1 



det(A) = (2)(1) - (-1X3) = 5, 
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_ ri/5 -3/5] 

1.1/5 2/5 J 



es la matriz inversa de A. Este resultado puede verificarse en forma sencilla, ya que 



, [1/5 -3/5] r 
[1/5 2/5JL- 



2 3 
1 1 



= AA 



2 3 
-1 1 



1/5 -3/5 
1/5 2/5 



]-[¿í 



Para finalizar, debe notarse que la inversa de cualquier matriz diagonal también 
es una matriz diagonal, cuyos elementos sobre la diagonal principal son los recípro- 
cos de los elementos que se encuendan en la diagonal principal de la matriz original. 
Por ejemplo, dado que 







"9 0" 




A = 


5 
10 


» 




"1/9 


-1 _ 


1/5 




. 


D 1/10. 



CAPÍTULO CATORCE 



Análisis de regresión: 
el modelo lineal general 



14.1 Introducción 

En el capítulo 13 se examinaron los fundamentos del análisis de regresión para el 
modelo lineal simple. En este capítulo se extenderán los conceptos ya presentados 
al modelo lineal general para el cual una respuesta dada se considera como una fun- 
ción de varias variables de predicción. Al examinar este modelo se estudiarán algu- 
nas formas para determinar el mejor conjunto de variables de predicción por incluir 
en la ecuación de regresión. También se proporcionará un estudio detallado del aná- 
lisis de residuos (también conocidos como residuales), mínimos cuadrados con fac- 
tores de peso (ponderados) y variables indicadoras, así como ejemplos resueltos con 
gran detalle. Para este capítulo se emplearán los paquetes estadísticos para computa- 
doras Minitab y SAS (véase [6]). Se supone que este tipo de paquetes o algunos simi- 
lares se encuentran disponibles para el lector. Para un estudio más teórico de los te- 
mas presentados en este capítulo, se invita al lector a que consulte [4]. 



14.2 El modelo lineal general 

Sean x ,, x 2 , ..., x k /(variables de predicción, las cuales pueden tener alguna influen- 
cia sobre una respuesta Y, y supóngase que el modelo tiene la forma donde Y¡ es la 

Y ¡ = /3 + /3,.v„ + fi 2 x ¡2 + ■■■ + ¡3 k x ¡k + e,, / = 1, 2, ..., n, (14.1) 

i'-ésima observación de la respuesta para un conjunto de valores fijos x n , x i2 , • ••> -*.* 
de las variables de predicción, e, es el error aleatorio no observable asociado con Y¡, 
y /3 , /3|, ..., (3 k son m = k + 1 parámetros lineales desconocidos. La ecuación 
(14.1) recibe el nombre de modelo lineal general y da origen a lo que se conoce como 
una regresión lineal múltiple. 
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Si se supone el caso de la teoría basada en el modelo normal, las observaciones Y¡ 
son variables aleatorias independientes, normalmente distribuidas con 

EÍY¡) = /8 + 0,*,, + - + &*,•*, 
Var(Y i ) = (r 2 , i=\,2,...,n. 

De esta forma, los errores aleatorios e, son N (0, o- 2 ) independientes. El modelo li- 
neal general define una ecuación de regresión la cual representa un hiperplano, para 
la que el parámetro O es el valor de la respuesta media cuando todas las variables de 
predicción tienen un valor igual a cero. El parámetro Pj,j = 1, 2, ..., k, represen- 
ta el cambio en la respuesta promedio para un cambio igual a una unidad de la 
correspondiente variable de predicción x Jt cuando todas las demás variables de pre- 
dicción se mantienen constantes. En este sentido, 0, representa el efecto parcial de 
Xj sobre la respuesta. 

La única restricción funcional que se impone al modelo lineal general es que sea 
lineal en los parámetros desconocidos; el modelo no tiene ninguna restriccón con 
respecto a la naturaleza de las variables de predicción; por lo tanto surgen muchos 
casos especiales e interesantes, algunos de los cuales cabe mencionar. El modelo 
dado por (14.1) implica que los efectos que las variables de predición *,, x 2 , ..., x k 
tienen sobre la respuesta son aditivos, de tal manera que la ecuación de regresión 
propuesta es una función lineal de las variables de predicción. Una ecuación de este 
tipo se denomina modelo de primer orden. Sin embargo, es posible que dos o más 
variables de predicción interactúen, es decir, el efecto de una de las variables de pre- 
dicción sobre la variable de respuesta depende del valor de otra variable de predic- 
ción. Cuando esto ocurre, los efectos no son aditivos debido a la presencia en el mo- 
delo de un término que contiene un producto cruzado el cual representa el efecto de 
interacción. Por ejemplo, considérese un modelo que contiene dos variables de pre- 
dicción que interactúan. El modelo es 

Y, = O + PtXa + p 2 x ¡2 + PyXnXn + e„ (14.2) 

donde el sumando /3 3 jc/,jc /2 refleja la interacción entre x, y x 2 . Si se define 

*/3 = */l*/ 2. ' = 1. 2, ..., n, 

entonces (14.2) puede escribirse en la forma del modelo lineal general (14.1), y de 
esta manera se advierte que es un caso especial de éste. Nótese que para este caso es- 
pecial el significado de 0, y 2 no es el mismo dado con anterioridad. La derivada 
parcial de la respuesta media con respecto aX|(o con respecto a x 2 ) representa el 
efecto sobre la respuesta media por unidad de cambio en .v, (,v 2 ) cuando jc 2 (.v,) se 
mantiene fija. Las derivadas parciales son 



BE{Y) 
dx¡ 

i)E(Y) 
dx 2 



01 + 03*2 

02 +03*1. 



14.2 El modelo lineal general 505 

Otro caso interesante surge cuando en (14.1) se tiene 

x¡ j = x j ¡, i=l,2, ...,n, j=l,2,...,k. 

Entonces el modelo lineal general toma la forma 

Y¡ = /3 + p,x, + (3 2 xl + - + Pk*¡ + e¡, (14.3) 

la cual se conoce como modelo curvilineal o polinomial. En este caso se supone que la 
respuesta promedio es una función polinómica de grado k de una sola variable de 
predicción. Por lo tanto, la ecuación de regresión propuesta para la respuesta pro- 
medio es una función no lineal de la variable de predicción, pero sigue siendo lineal 
en los parámetros. Es importante notar que lo que se busca en este caso es el grado k 
que mejor se ajusta a una muestra aleatoria de la variable respuesta. 

Para describir en forma adecuada una variable respuesta dada, muchas veces es 
necesario incluir términos lineales, cuadráticos y de interacción en el modelo pro- 
puesto. Por ejemplo, un modelo para dos variables de predicción podría ser 

Y¡ = /3 + j8,jc f , + /3 2 .r, 2 + jSjjr?, + p,x] 2 + p 5 x n x i2 + e¡. (14.4) 

Al definir nuevas variables de predicción, así como se hizo anteriormente para los 
términos cuadráticos y de interacción, se observa que (14.4) también es un caso espe- 
cial del modelo general. Este tipo de modelo se denomina ecuación completa de 
segundo orden y define varias superficies para la respuesta promedio como una fun- 
ción no lineal de las variables de predicción x t y x 2 . Para k 5* 2 variables de pre- 
dicción distintas, una ecuación de regresión completa de segundo orden consiste en 
un término constante, k términos lineales, k términos cuadráticos y k(k — l)/2 tér- 
minos de interacción. 

A continuación se regresará al modelo lineal general dado en (14.1) para obtener 
los estimadores de mínimos cuadrados de los parámetros y para desarrollar técnicas 
de regresión para este modelo. Todos los casos especiales mencionados con anterio- 
ridad así como muchos otros que no se citaron de manera específica, se encuentran 
incluidos en el siguiente análisis. Se empleará el álgebra de matrices, ya que ésta sim- 
plifica en gran medida la presentación. 

Dada una muestra aleatoria de observaciones Y,, Y 2 , ..., Y n en los puntos de 
observación *,,, x t x i2 , ..., x lk , x 2i , x 21 , ..., x 2k x nl , x„ 2 , ..., x nk , respectiva- 
mente, con base en el modelo lineal general, se tienen las n ecuaciones siguientes: 

Y, = j8„ + /3,-v,, + p 2 x l2 + ■- + P,x lk + e, 

Y 2 = j3 + ¿3,jr 2 , + |32.v 22 + ••■ + p k x 2k + e 2 



Y„ = fio + p,x al + p 2 x„ 2 + ■■■ + p k x„ k + E „. 

Como resultado, el modelo lineal general también puede expresarse en forma ma- 
tricial como 



X/3 + e, (' 4 - 5 > 
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donde 



Y = 



Y 2 



X = 



1 X U X, 2 
' x 2\ X Z2 



1 



*«2 



X U 
X„k 



fl = 



'/3o" 
)8. 



e = 



El lector no tendrá ninguna dificultad para reconocer que (14.5) tiene la misma for- 
ma matricial que el modelo lineal simple (13.37), excepto que ahora X es una matriz 
de/ix/n para las variables de predicción, y fl es un vector de parámetros descono- 
cidos de m x 1 , mientras que Y y e siguen siendo vectores de n x 1 , los que contie- 
nen las observaciones de la variable de respuesta y los errores aleatorios asociados 
con éstas, respectivamente. 



Bajo el caso de la teoría normal 

Y ~ MXft o- 2 I), 
e ~ N(0, o- 2 I), 
donde 

Var{\) = Var(e) = <r 2 I. 

De esta manera Y y e son vectores de variables aleatorias independientes normal- 
mente distribuidas. 

Para la estimación de los parámetros por mínimos cuadrados las ecuaciones nor- 
males toman la misma forma dada por (13.40), o 

(X'X)B = X'Y 

donde, ahora, (X'X) es un matriz de m x n y B es un vector de m x 1 el cual contie- 
ne los estimadores de mínimos cuadrados B , B, , ..., B k . Si (X'X) tiene inversa, la 
solución para el vector B está dada por 

B = (X'X)' 'X'Y. 
Por lo tanto, la ecuación estimada de regresión es 



Y = XB, 



(14.6) 



donde el vector Y de n x 1 contiene los valores estimados para la respuesta prome- 
dio correspondientes a los n puntos de observación de las variables de predicción. La 
diferencia entre los vectores Y y Y proporciona el vector de residuos. 

Puede demostrarse que las propiedades de los estimadores de mínimos cuadra- 
dos B , B, , ..., B k son extensiones de las propiedades de los estimadores para el 
modelo lineal simple, es decir, de acuerdo con el caso de la teoría normal, los estima- 
dores también son de máxima verosimilitud, de tal manera que lo siguiente se verifica: 
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1. Cada fl, tiene una distribución normal con media E(Bj) - Bj,j = 0, 1, 2, ?.%, k, 
y varianza Var(Bj) = c u + „ a 2 , y = 0, 1, 2, ..., *, donde c ( ¡ + jj es el 
elemento de la diagonal O' + 1) de (X'X) -1 . •-= 

2. Cov(B¡, Bj) = c,, + i )-0 + 1) o- 2 , / í j = 0, 1, 2, ...,■*, donde c (/+I) , ü+ ,y es 
el elemento de (X'X)" ' que se encuentra en el renglón (/ + 1) y la columna (J + 1) 
para i ^ j. 

Un estimador no sesgado de la varianza del error es 

sl = Y'Y-B'X'Y (14 ?) 

n - m 

donde el numerador de (14.7) no es más que la suma de los cuadrados de los resi- 
duos. Nótese que el denominador de (14.7) es igual al número de observaciones, 
menos el número de parámetros que figuran en el mode!'\ e' que para el modelo li- 
neal general es m = k + 1 . Por lo tanto, una estimación de Var(Bj) es 

s 2 (Bj) = c u+l) s 2 , j = 0,1,2, ...,k, 

donde c u+ 1) tiene un valor igual al ya definido con anterioridad. 
De los resultados anteriores puede deducirse que la cantidad 

(Bj - (3j)/s(Bj), j = 0,l,2,...,k, 

es una variable aleatoria / de Student con n - m grados de libertad. Entonces, un in- 
tervalo de confianza del 100(1 - a)% para el parámetro B¡ es 

bj ± U- a /2. n-mS(Bj), j = 0, 1, 2, ..., k, (14.8) 

y una estadística apropiada para probar la hipótesis nula 

//o:ft = 

contra cualquier alternativa, ya sea ésta uni o bilateral, es la ya familiar / de Student 

T = Bj/s(Bj), j = 0,1,2,...,*, 

con n - m grados de libertad. 

Considérese la técnica del análisis de varianza para probar la hipótesis nula 

fio- )8, = B 2 = ■■■ = B k = 

contra la alternativa 

//,: Bj =£ para algún j = 1, 2, ..., *. 

Dado que H establece que todos los parámetros de regresión son iguales a cero, ex- 
cepto el término constante, esto implica que no existe ninguna relación igual a la es- 
pecificada por el modelo propuesto entre la respuesta y el conjunto de variables de 
predicción. No obstante, se advierte al lector que el hecho de rechazar a H no nece- 
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sanamente implica que la ecuación estimada de regresión sea útil para efectuar pre- 
dicciones. Se necesita profundizar el análisis antes de que se pueda dar un juicio de- 
finitivo sobre la utilidad de la ecuación de regresión. 

Al seguir el mismo argumento para el modelo lineal general que el dado para el 
modelo lineal simple en la sección 13.7, puede demostrarse que la suma total de cua- 
drados se encuentra dividida en la suma de cuadrados de la regresión y en la 
suma de cuadrados de los errores. Mediante el empleo de la notación matricial, 
STC, SCR y SCE se encuentran definidos en la tabla 14.1. 

El número total de grados de libertad sigue siendo n - 1, pero el número de gra- 
dos de libertad para el error ahora es de n - m. Los grados de libertad para la regre- 
sión son (n - 1) -(n -m) = m - 1 = k, dado que m = k + 1. La varianza residual o 
SCE/(n -ni) es el cuadrado medio del error y SCR/(m - 1) es el cuadrado medio de 
la regresión. Bajo la hipótesis nula, la estadística de prueba apropiada es 

F = CMR/CME, 

la cual tiene una distribución .Tcon m - 1 y n - m grados de libertad. Al igual que en 
los casos anteriores, puede argumentarse que si un valor de esta estadística es lo sufi- 
cientemente grande, entonces una porción considerable de la variación en las obser- 
vaciones puede atribuirse a la regresión de Y sobre las variables de predicción como 
se encuentran definidas por el modelo. De esta forma se rechaza la hipótesis nula 
siempre que el valor calculado se encuentre en el interior de una región crítica de ta- 
maño ót en el extremo superior de la distribución. En la tabla 14.1 se da la tabla de 
análisis de varianza para el modelo lineal general. 

Para el modelo lineal general la noción del coeficiente de determinación se ex- 
tiende para dar origen a lo que se conoce como coeficiente de correlación múltiple o 
coeficiente de determinación múltiple. El coeficiente de correlación múltiple se defi- 
ne como 



^ = SCR 

STC 



1 



SCE 

STC' 



(14.9) 



y al igual que r 2 , mide la proporción de la variación total de las observaciones con 
respecto a su media, atribuible a la ecuación de regresión estimada. En otras pala- 



TABLA 14.1 Tabla ANO VA para el modelo lineal general 



Fuente de Número de Sumas de 

variación grados de libertad los cuadrados Cuadrados medios Estadística F 



Regresión 
Error 



k = m - 1 



B'X'Y 



.(Sr;)-' 



Y'Y - B'X'Y 



SCR/(/w - 1) 
SCE/(/i - m) 



SCR/(ffl - I) 
SCE/í/i - m) 



Total 



Y'Y 



(2 Y,) 2 
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bras, R 2 es una medida relativa de qué tanto las variables de predicción incluidas en 
el modelo explican la variación de las observaciones. Al igual que para el modelo li- 
neal simple, *s R 2 « 1, y entre más cercano a uno es el valor de R 2 mayor es la 
cantidad de la variación total que puede explicarse por medio de los términos que 
aparecen en el modelo. Por sí mismo, R 2 no puede validar el modelo propuesto, ni 
tener un valor de R 2 cercano a uno necesariamente implica que la ecuación de regre- 
sión estimada sea apropiada para predicción. 

Supóngase que se desea predecir la respuesta promedio cuando las k variables de 
predicción toman los valores especificos x t , x 2 , ..., x k , respectivamente. En nota- 
ción matricial, sea 

X; = [1 *, x 2 ■■■x k ] 

un vector renglón el cual identifica las coordenadas para las cuales se va a formular 
la predicción. Entonces la respuesta promedio estimada es 

y p = x;b 

= B + fl,.t, + B 2 x 2 + •• + B k x k . (14.10) 

Dada (14.10), puede demostrarse que 

Var(Y„) = a 2 X p (X'Xy l X p . 

De esta forma, una estimación de Var( Y p ) es 

s 2 (Y p ) = i 2 X;(X'Xr'X p , (14.11) 

donde 5 a es la varianza residual y X es la matriz original de valores x, los cuales dieron 
origen a la ecuación de regresión estimada. De acuerdo con el caso de la teoría nor- 
mal, un intervalo de confianza del 100(1 - a)% para la respuesta promedio en 
jc, , x 2 , •••, x k ,es 

y P ±t^ al2 , n . m s{%). (14.12) 

Si se desea estimar una respuesta particular para .r, , x 2 , .... x k , la predicción es- 
tará dada por (14.10), pero la varianza será 

Var(Y pan ) = a\\ + X^X'Xr'X,]. 

Por lo tanto, un intervalo de predicción del 100(1 - a)% para el valor real de la 
respuesta en ,v,, x 2 , ..., x k , es 

v -<- t, i-, s( Y ) (14.13) 

.'pan — M-tt/2. n-rn->\ 'par!/'' v 

donde 

s 2 (K n ) = r[l + X;(X'X)-'XJ. 
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Ejemplo 14.1 ¡N.H.* Prater desarrolló una ecuación, de regresión para estimar la 
producción de gasolina como una función délas propiedades de destilación de cierto 
tipo de petróleo crudo. Se identificaron cuatro variables de predicción: la gravedad 
del petróleo crudo, API,(jcj); la presión de vapor del (petróleo crudo, psi.(x 2 ); el 
punto dé 10% ASTM para el petróleo crudo, °F (Jc 3 ) y el punto final ASTM para 
la gasolina, °F (jc 4 ). Los primeros dos miden la gravedad y la presiónde vapor del 
petróleo crudo. El punto de 10% ASTM es la temperatura para la cual se ha evapo- 
rado cierta cantidad de liquido, y el punto final para la gasolina es la temperatura 
para la cual se ha evaporado todo el liquido. La variable respuesta fue la cantidad de 
gasolina producida expresada como un porcentaje respecto al total de petróleo cru- 
do. El objetivo radicó en determinar una ecuación de regresión para la producción 
de gasolina como una función lineal de las propiedades de destilación de cierto tipo de 
petróleo crudo x { , x 2 , x 3 y el punto final deseado para la gasolina x 4 . Los datos de la- 
boratorio obtenidos por Prater se muestran en la tabla 14.2. 

Se emplearan los datos que aparecen en la tabla 14.2 para ilustrar las técnicas que 
hasta este momento se han presentado para regresión lineal múltiple mediante el 
empleo del paquete SAS. Este problema también se considerará como perteneciente 
a un problema particular que puede encontrarse en la regresión lineal múltiple y que 
se conoce como multicolinealidad. Debe notarse que desde la publicación de los 
datos de Prater, en 1956, varios autores los han empleado con el propósito de 
ilustrar diferentes aspectos del modelo lineal general. Entre ellos, Daniel y Wood [2] 
desarrollaron una ecuación de regresión muy diferente a la dada por Prater. 

Mediante el empleo de una opción de SAS, denominada GLM, se ajusta el mode- 
lo lineal 

Y = j8o + jS,Jf, + /3 2 JC 2 + jS 3 jt 3 + /3 4 x 4 + e. 

En la figura 14.1 se proporciona el listado de computadora. Nótese que en la parte 
inferior de éste se encuentran cinco columnas de información. La primera columna 
de la izquierda identifica a las variables de predicción en el modelo que incluyen al 
término constante. La segunda columna proporciona las estimaciones por mínimos 
cuadrados; en la tercera se encuentran los valores / de Student para probar la hipóte- 
sis nula de que el valor del parámetro es cero; la cuarta columna da la probabilidad 
(valor p) de observar un valor / de Student, al menos tan grande en magnitud, como el 
valor observado (ignorando su signo) y la quinta columna proporciona las desviacio- 
nes estándar (errores) para las estimaciones por mínimos cuadrados. De esta forma, 
la ecuación estimada de regresión (tomando en cuenta sólo dos cifras decimales) es 

y = -6.82 + 0.23jc, + 0.55x 2 - 0.15x 3 + 0.15jc 4 . 

En la parte superior de la figura se encuentra la tabla ANO VA con gl(CMR)= 4, 
SCR = 3 429.27, CMR = 857.32, gl(SCE) = 27, SCE = 134.80, ECM = 4.99, 

* N.H. Prater, Estímate gasoline yields /rom crudes, Petroleum Refiner 35 (1956), 236-238. La reproduc- 
ción de la tabla se hizo con el permiso de Petroleum Refiner (posteriormente Hydrocarbon Processing), 
Mayo 1956. 
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TABLA 14.2 Datos de la muestra para el ejemplo 14.1 



Observación 


Y 


x, : 


¿;-x t ^ ' 


Xi 


:.. -....^a 


1 


6.9 


38.4 


6.1 


220 


235 


2 


14.4 


40.3 


4.8 


231 


307 


3 N 


7.4 


40.0 x 
- 31.8 \ 


6.1 


217 


212 


4 


, 8.5 


0.2 


316 


365 


5 


8.0 


40.8 


3.5 


210 


218 


6 


2.8 


41.3 


1.8 


267 


235 


7 


5.0 


38.1 


1.2 


274 


285 


8 


12.2 


50.8 


8.6 


190 


205 


9 


10.0 


32.2 


5.2 


236 


267 


10 


15.2 


38.4 


6.1 


220 


300 


11 


26.8 


40.3 


4.8 


231 


367 


12 


14.0 


32.2 


2.4 


284 


351 


13 


14.7 


31.8 


0.2 


316 


379 


14 


6.4 


41.3 


1.8 


267 


275 


15 


17.6 


38.1 


1.2 


274 


365 


16 


22.3 


50.8 


8.6 


190 


275 


17 


24.8 


32.2 


5.2 


236 


360 


18 


26.0 


38.4 


6.1 


220 


365 


19 


34.9 


40.3 


4.8 


231 


395 


20 


18.2 


40.0 


6.1 


217 


272 


21 


23.2 


32.2 


2.4 


284 


424 


22 


18.0 


31.8 


0.2 


316 


428 


23 


13.1 


40.8 


3.5 


210 


273 


24 


16.1 


41.3 


1.8 


267 


358 


25 


32.1 


38.1 


1.2 


274 


444 


26 


34.7 


50.8 


8.6 


190 


345 


27 


31.7 


32.2 


5.2 


236 


402 


28 


33.6 


38.4 


6.1 


220 


410 


29 


30.4 


40.0 


6.1 


217 


340 


30 


26.6 


40.8 


3.5 


210 


347 


31 


27.8 


41.3 


1.8 


267 


416 


32 


45.7 


50.8 


8.6 


190 


407 



gl(STQ = 31 ySTC = 3 564.08. El valor F calculado para probar la hipótesis nula 

// :/3, =fr = fr = ft = 

es de 171.71, y la probabilidad de observar un valor mayor se encuentra inmediata- 
mente a la derecha de éste. Debajo del valor/? está la desviación estándar residual, s 
= 2.23. El coeficiente de correlación múltiple es 0.9622, lo cual significa que alrede- 
dor de un 96% de la variación total de las observaciones con respecto a su media 
puede explicarse por las cuatro variables de predicción incluidos en la ecuación de 
regresión. 

En el extremo superior derecho, está el coeficiente de variación, el cual se definió 
en el capítulo 3. En este caso, el valor de C Ves el cociente de la desviación estándar 
residual entre la media de las observaciones. Ya que en este caso s = 2.23 y y = 
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19.66, CV = 1 1 .37V0. Enel análisis de regresión es deseable que la desviación están- 
dar residual sea una pequeña fracción de la media de las observaciones, ya que lo an- 
terior, en general, implica que gran partede la variación en la respuesta se explica 
mediante las variables de predicción en la ecuación de regresión. En la siguiente sec- 
ción se darán más explicaciones con respecto a la información que se encuentra en la 
parte media de la figura. 

Con base en el análisis anterior, existe una pequeña duda de que la regresión 
entre la producción de gasqlina y las cuatro variables de predicción sea estadística- 
mente significativa. Debido a que se rechaza la hipótesis nula de que todos los coefi- 
cientes de regresión (excepto el término constante) son iguales a cero y el 
valor del coeficiente de correlación múltiple es relativamente alto al 0.9622. Sin em- 
bargo, existe una razón para preocuparse con respecto a la utilidad de la ecuación de 
regresión dada. Por ejemplo, las desviaciones estándar de los estimadores de míni- 
mos cuadrados para /3 y /3 2 son grandes, lo que sugiere que x v y posiblemente otras 
variables de predicción, puedan no tener un gran efecto sobre la producción de gaso- 
lina. En las siguientes secciones se examinarán los procedimientos adecuados para 
obtener la mejor ecuación de regresión para un conjunto dado de variables de pre- 
dicción. Los datos del ejemplo 14. 1 se utilizarán de vez en cuando para otros ejemplos 
en este capítulo. 
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La inclusión de una variable de predicción en un modelo de regresión no implica, en 
forma necesaria, que tenga un efecto substancial sobre la respuesta dada; es decir, 
cuando un investigador identifica un conjunto de variables de predicción, esto indi- 
ca el potencial de las variables para explicar la variación en la respuesta. Queda por 
comprobarse si algunas realmente lo hacen. 

El procedimiento apropiado para encontrar los efectos individuales de las varia- 
bles de predicción se basa en el principio de la suma de cuadrados extra. Este princi- 
pio permite determinar la reducción en la suma de los cuadrados de los errores cuan- 
do se introduce un coeficiente adicional de regresión para alguna función de una 
variable de predicción en la ecuación de regresión. Cabe recordar dos cosas impor- 
tantes: 1) la suma total de cuadrados sigue siendo la misma sin importar el número 
de términos que se introduzcan en el modelo de regresión. 2) La suma de los cuadra- 
dos de los errores siempre disminuye (cuando menos un poco) conforme se añaden 
más términos al modelo. 

Dado que la suma de los cuadrados de regresión es la diferencia entre STC y SCE, el 
incremento en SCR tiene un límite conforme se suman más términos al modelo. Una 
estrategia lógica en la regresión lineal múltiple es la de añadir no cualesquiera térmi- 
nos, al modelo, sino sólo aquéllos que incrementen en forma significativa la suma de 
los cuadrados de regresión y de esta manera disminuyan significativamente la suma 
de los cuadrados de los errores. Como ejemplo, en el modelo lineal simple, SCR es la 
suma extra de los cuadrados debida a la inclusión del término lineal /3,.v en el mode- 
lo. En otras palabras, SCR representa la reducción en la suma de los cuadrados de 
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i! 



los errores cuando se añade un efecto lineal de la variable de predicción al modelo 
original. 

Y¡ = Po + e,. 

Para ilustrar el principio de la suma de cuadrados extra, se emplearán, de los 
datos de Prater como variables de predicción potenciales, sólo a x 2 y x 3 y se ajusta- 
rán todas las posibles regresiones de la producción de gasolina para esas dos va- 
riables. Existen tres ecuaciones de regresión; dos que toman en cuenta a x 2 y jc 3 en 
forma individual y la tercera que contiene a ambas variables x 2 y jc 3 . En la tabla 14.3 
se proporcionan las ecuaciones de regresión estimadas y sus correspondientes tablas 
de análisis de varianza. Nótese que se ha empleado la notación SCRix), SCR(x 2 , xj y 
SCE(x 2 , Jt 3 ), para denotar que estas sumas de cuadrados son funciones de las varia- 
bles de predicción ya indicadas en la ecuación de regresión y de los correspondientes 
coeficientes de mínimos cuadrados. 

A continuación se examinarán los resultados que se encuentran en la tabla 14.3. 
Como ya se ha mencionado, para las 32 observaciones dadas de la respuesta, la 



TABLA 14.3 Ecuaciones estimadas de regresión y tablas ANOVA para la producción de ga- 
solina, tomando en cuenta a x 2 y/o x 3 

a) y = 13.09 + ].57x 2 



Fuente de 
variación 


si 


SC 


CM 


Valor F 


Regresión 
Error 

Total 


1 
30 


SCR(x 2 ) = 525.74 
SCE.(jc 2 ) = 3038.34 


CMRfc) = 525.74 
CME(jt 2 ) = 101.28 


5.19 


31 


STC = 3564.08 


/0.9í, 1.30 = 4. 17 








b)y = 41.39 


- 0.09*3 




Fuente de 
variación 


si 


SC 


CM 


Valor F 


Regresión 
Error 

Total 


1 

30 


SCR(x 3 ) = 353.70 
SCEU,) = 3210.38 


CMRC*,) = 353.70 
CMECxj) = 107.01 


3.31 


31 


STC = 3564.08 


/()95. 1. 30 = 4. 17 








c) v = -2.52 + 2 


26a 2 + 0.05.V, 




Fuente de 
variación 


si 


SC 


CM 


Valor F 


Regresión 
j Error 

i Total 


2 
29 


SCRU 2 , -v,)'= 547.49 
SCEU 2 , .v,) = 3016.59 


CMRU 2 ,.v 3 ) = 273.74 
CMEU 2 ,.v,) = 104.02 


2.63 


31 


STC = 3564.08 


/ü.9.V 2. 29 — 3.33 
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suma total de cuadrados es STC = 3 564.08 sin importar cuántas variables de predic- 
ción se incluyan en el modelo. Para la regresión de y sobre x 2 ,SCR(x 2 ) = 525.74 es la 
reducción en la suma de los cuadrados de los errores cuando se añade el término f3 2 x 2 
al modelo Y¡ = j3 + s¡. En otras palabras, si se ajusta el modelo Y¡ = ¡3 + e¡, se 
supone que la única fuente de variación en Y¡ es el error aleatorio; la recta de regre- 
sión estimada es simplemente Y¡ - Y. Cuando se agrega el término /3 2 jr 2 al mode- 
ló, entonces parte de la variación total puede explicarse por la presencia de x 2 . 
Esto es lo que precisamente representa SCR(x 2 ) = 525.74, SCR(x 2 ) es la suma extra 
de cuadrados en la que disminuye SCE cuando se añade el término p 2 x 2 al modelo. 
Al emplear el mismo argumento para la regresión de Y sobre ;t 3 , SCR (jc 3 ) = 353.70 
es la suma extra de cuadrados en los que disminuye el error cuando se añade el térmi- 
no /3 3 jc 3 al modelo Y¡ = /3 + e¡. Para cualquier otro caso, si la reducción en la 
suma de los cuadrados de los errores es substancial, se rechaza la hipótesis nula de 
valor cero para el correspondiente coeficiente de regresión. Nótese que se rechaza 
x 2 , H : fi 2 ..= para la regresión de Y sobre jr 2 ("al<r/ =5.19 > /0.95.1.3o = 4.17), 
pero para la regresión de Y sobre ;t 3 , H : ¿8 3 = no puede rechazarse. 

Considérese la regresión de Y sobre x 2 y x } . Lo que se desea determinar es la re- 
ducción en la suma de los cuadrados de los errores cuando se añade el término ¿3 3 .r 3 
al modelo, el cual ya contiene el término constante ¿3 y el término fi 2 x 2 , o la reduc- 
ción en SCE cuando se introduce el término fi 2 x 2 al modelo, el cual ya contiene a ¿8 
y ¿8 3 ;t 3 . Nótese que para el modelo c de la tabla 14.3 la suma de los cuadrados de los 
errores cuando se incluye en el modelo de regresión, tanto a x 2 como a x 3 es SCE{x v 
x } ) = 3 016.59. Pero cuando sólo se tiene a x 2 en el modelo, SCE{x 2 ) = 3 038.34. 
Por lo tanto, la diferencia entre SCE(x 2 )y SCE(x v x^) debe ser la suma de cuadrados 
extra debida a la inclusión del término ¿8 3 ;t 3 en el modelo que ya contiene a los tér- 
minos /3 y fi 2 x 2 . Se denotará esta diferencia por SCR(;t 3 | x 2 ). De esta forma 

SCR(jc 3 \x 2 ) = SCE(;t 2 ) - SCE(;t 2 ,;t 3 ) (14.14) 

= 3038.34 - 3016.59 

= 21.75 

es la reducción adicional en la suma de los cuadrados de los errores cuando se intro- 
duce x 3 en el modelo que ya contiene a x 2 . 

Dado que una reducción en la suma de los cuadrados de los errores significa un 
aumento correspondiente a la suma de los cuadrados de la regresión, 

SCR(.r 2 , jc 3 ) = SCR(;t 3 1 x 2 ) + SCR(jc 2 ) (|4.I5) 

= 21.75 + 525.74 
= 547.49. 

La suma de los cuadrados de la regresión, cuando figuran en el modelo, tanto x 2 como 
x v se separa en dos componentes, cada uno de éstos con un grado de libertad. SCR 
(x } I x 2 ), el cual refleja la contribución de x } cuando ésta se añade al modelo Y = A) 
+ /3 2 x 2 + e, y SCR(x 2 ) la cual mide la contribución de x 2 cuando ésta se añade al 
modelo Y = ¿8 + e. 
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TABLA 14.4 Tabla ANO VA aumentada para la regresión de Y sobre x 2 y x } 

CM 



Fuente de 






variación 


*/ 


SC 


Regresión 


2 


SCR ( Xu Xj ) = 547.49 


*2 


1 


SCR (x 2 ) = 525.74 


JTj | X 2 


1 


SCR(jc 3 |x 2 ) = 21.75 


Error 


29 


SCE(x 2 ,x 3 ) = 3016.59 



Valor F 



Total 



CMR(x 2 ,x 3 ) = 273.74 2.63 

CMR(;t 2 ) = 525.74 - 5.05 
CMRUj I x 2 ) = 21.75 0.2 

CMEfo.xj) = 104.02 



31 



STC = 3564.08 



/o. 



95, 2. 29 



= 3.33; /o. 95> 1,2, = 4.18 



Se puede demostrar que SCR(x 3 \ x 2 ) y SCR{x 2 ) son variables aleatorias indepen- 
dientes chi-cuadrada, cada una con un grado de uberiad; entonces puede hacerse una 
comparación entre el cuadrado medio correspondiente a SCR{x 3 1 x 2 ), o el de 
SCR(x 2 ), y el cuadrado medio del error, CME{x 2 , Jc 3 )por medio de la estadística F. 
Esta prueba se conoce como prueba F parcial sobre una variable de predicción. En 
realidad, la prueba F parcial determina si la contribución de un coeficiente de regre- 
sión es lo suficientemente grande para garantizar su inclusión en el modelo, dado 
que otros términos no toman en cuenta al coeficiente que ya se encuentra en el mis- 
mo. Por lo tanto, en cierto sentido, se intenta enjuiciar el efecto individual de la co- 
rrespondiente variable de predicción sobre una respuesta dada. La tabla ANOVA 
aumentada para la regresión de Y sobre x 2 y x z , la cual incluye las pruebas F par- 
ciales, se muestra en la tabla 14.4. Nótese que la inclusión del término f3 2 x 2 en el 
modelo Y = /3 + e tiene un efecto benéfico, mientras que la inclusión de /3 3 x 3 en 
Y = p + (i 2 X 2 + e no. 

A lo largo de toda la presentación anterior se supuso que el término /3 3 .t 3 era el 
último en sumarse al modelo que incluye ajt 2 y jr 3 . Sin embargo, es posible realizar 
pruebas parciales F para cada coeficiente de regresión, como si la correspondiente 
variable de predicción fuese la última en haberse añadido al modelo. De esta forma, 
los efectos individuales de cada variable de predicción, en presencia de las otras, 
pueden comprobarse. Para el ejemplo, lo que se desea es determinar la contribución 
del término /3 2 .v 2 cuando el modelo ya contiene aftya /3 3 x 3 . 

Al seguir el mismo procedimiento dado con anterioridad, la suma de los cuadra- 
dos de los errores cuando, tanto x 2 como x } se encuentran en el modelo, es SCE(x 2 , 
x } ) = 3 016.59. Pero cuando sólo se encuentra Xj en el modelo, SCE(xj) =3 210.38. 
De esta forma, la reducción en el valor de la suma de los cuadrados de los errores 
cuando se añade el término j3 2 x 2 al modelo que ya contiene a /3 () y /3 v í 3 es 



SCR(.v 2 1 x y ) = SCEU 3 ) - SCE(x 2 , jc 3 ) 
= 3210.38 - 3016.59 
= 193.79. 



(14.16) 



Entonces la suma de los cuadrados de regresión, cuando x 2 y .v 3 se encuentran en el 
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modelo, la suma de los dos componentes es 

SCRU 2 , * 3 ) = SCR(jc 2 | * 3 ) + SCRttj) (14.17) 

= 193.79 + 353.70 
= 547.49, 

cada componente con un grado de libertad. Una consecuencia importante de todo lo 
anterior, es que tanto SCR(x 2 | * 3 ) = 193.79 y SCR(x 3 | x 2 ) = 21.75 son más pequeños 
que SCR(x 2 ) = 525.74 y SCR(x 3 ) = 353.70, respectivamente. El porqué de lo ante- 
rior constituye el tema de la siguiente sección. 

Para determinar las pruebas F parciales para la regresión debida a ;c 3 , o a ;c 2 dada 
* 3 , ahora es posible tener otra versión de la tabla 14.4; ésta se muestra en la tabla 
14.5. Nótese que una comparación entre los resultados de las tablas 14.4 y 14.5 
muestra un desacuerdo con respecto al efecto de x 2 sobre la producción de gasolina. 
Mientras que la regresión lineal simple de Y sobre x 2 es estadísticamente significativa 
(/" = 5.19), la regresión de y sobre x 2 dada la presencia de x } , no lo es (/" = 1.86). Se, 
dará más información con respecto a es L a ocurrencia en la siguiente sección. 

El principio de la suma de cuadrados extra se extiende de manera directa para 
aplicar la idea básica a cualquier número de variables de predicción. Por ejemplo, 
supóngase que se tienen tres variables de predicción jc,, x 2 yx y Se puede definir la re- 
ducción en la suma de los cuadrados de los errores, cuando una de éstas se añade al 
modelo que ya contiene a las otras dos, de la siguiente manera: 

SCRU 3 |jc,,jc 2 ) = SCE(jc,,* 2 ) -SCE(.r,,jc 2 ,Jt3), (14.18) 

SCR(jc 2 |jr,,jr 3 ) = SCE(jc, , x 3 ) - SCE(jr,, jc 2 , jc,), (14.19) 

SCR(jc, \x 2 ,x 3 ) = SCE(jc 2 ,jt 3 ) - SCE(jc,, x 2 , x y ). (14.20) 

Para desarrollar expresiones similares a (14.15) o (14.17), de (14.14) se deduce que 

SCR(.r 2 1 jc,) = SCE(jr,) - SCE(jc,, x 2 ), 



TABLA 14.5 Tabla ANO VA aumentada para la regresión de Y sobre x 2 y x } 



Fuente de 
variación 


*/ 


SC 


CM 


Valor F 


Regresión 


2 


SCR(.r 2 , .r,) = 547.49 


CMR(.(,, x } ) = 273.74 


2.63 


X) 


1 


SCR(.r 3 ) = 353.70 


CMR(.t,) = 353.70 


3.40 


x 2 | .v 3 


1 


SCR(.t, | x } ) = 193.79 


CMR(jc 2 | x } ) = 193.79 


1.86 


Error 


29 


SCE(.r 2 ,.r,) = 3016.59 


CME(jt 2 ,^ 3 ) = 104.02 




Total 


31 


STC = 3564.08 


y¡)95. :. :■) = 3.33',yo.95. i 


,.„ = 4.18 
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O 

SCE(jc„ x 2 ) = SCECr.) - SCR(jr 2 1 jc,). (14.21) 

Ahora, cuando sólo se tiene a jr, en el modelo, por definición 

SCECr,) =STC -SCRCr,); 

pero cuando todas las tres variables se encuentran en el modelo, 

STC =SCR(x l ,x 2 ,x i ) + SCE(x,,x 2 ,x J ). 

Entonces 

SCECr,) =SCR(x,,x 2 ,x 3 ) + SCE(jc,, x 2 , jc 3 ) - SCR (;<:,), 

y al sustituir SCE(x) en (14.21), se obtiene 

SCE( Xi ,x 2 ) =SCR(x i ,x 2 ,x J ) + SCE( JC| , JC2 , J t 3 ) 

-SCRU,) -SCR(jt 2 |jt,). (14.22) 

Al sustituir (14.22) por SCE(xi , x 2 ) en (14.18) se obtiene el resultado deseado 

SCR0c 3 |;c,,;c 2 ) = SCR(jc,, x 2 , x 3 ) - SCRU,) - SCR(;c 2 | jc,), (14.23) 

o 

SCR(jt,,jr 2 ,jr3) = SCR(x,) + SCR(jc 2 | jc,) + SCR(jc 3 | jc,, jc 2 ). (14.24) 

La suma de los cuadrados de regresión, cuando las tres variables se encuentran 
en el modelo, tiene tres componentes, cada uno con un grado de libertad. SCR(x¡) 
mide la contribución (reducción en la suma de los cuadrados de los errores) de jc, 
cuando se añade x, al modelo Y = ¡3 + e; SCR(x 2 \ x,) representa la contribu- 
ción de x 2 cuando ésta se introduce al modelo Y = /3 + /3,jc, + e; y SCR(jc 3 | jc, , jc 2 ) 
es la contribución dejc 3 cuando ésta se agrega al modelo Y = fi + /3,jcj + ¡3 2 x 2 + e. 

Al emplear (14.19) o (14.20) y si se sigue el mismo procedimiento, pueden esta- 
blecerse resultados similares a (14.24) de la siguiente manera: 

SCR(jc,,Jc 2 ,jr 3 ) =SCR(x,) +SCR(jr 3 |*i) +SCR(jr 2 |jr 1 ,jr 3 ), (14.25) 
SCR(jC|,JC2,jr 3 ) =SCR(x 2 ) + SCR(jt 3 | j 2 ) + SCR.(jc, | jc 2 , jc 3 ). (14.26) 

Estos resultados permiten que se lleven a cabo pruebas F parciales sobre cada 
coeficiente de regresión como si la variable de predicción asociada con éste hubiese 
sido la última en incluirse en el modelo. En otras palabras, con las pruebas parciales 
F puede determinarse si el efecto individual de una variable de predicción en pre- 
sencia de las demás es estadísticamente discernible. Debe notarse que al intercambiar 
el orden de entrada al modelo para las variables de predicción, entonces es posible 
identificar otras relaciones similares a (14.24)-(14.26). Por ejemplo, 

SCRÍjc, , x 2 ,x 3 ) = SCR(.v 2 ) + SCR(jc, | jc 2 ) + SCR(jc 3 j x 2 ,x t ) 
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es otra separación de SCR(x u x 2r jc 3 ), Conforme crece el número de variables de 
predicción, el número posible de separaciones se vuelve más grande. 

Con base en lo anterior, puede explicarse ahora, para los datos de Prater dados en 
la sección anterior, la información que aparece en la parte media de la figura 14.1. 
El lector notará dos columnas identificadas como "SC tipo I" y "SC tipo IV". La 
de tipo I contiene las cuatro componentes de SCR (jc, , x 2 , jc 3 , x 4 ) , tales que 

' ■ " \ ■ ■ ' 

SCR(jc, , x 2 , x 3 , jc 4 ) = SCR(jc,) +. SCR(jc 2 | jc,) 

+ SCR(jc 3 | jc, , x 2 ) + SCR(jc 4 \x,,x 2 , jc 3 ). 

Cada componente tiene un grado de libertad y representa la reducción en la suma de 
los cuadrados de los errores cuando se añade al modelo la variable indentificada. El 
orden de entrada de variables al modelo es el mismo para el cual fueron identificadas 
las variables de predicción por el usuario, así que 

SCRU,) = 216.26, 
SCR(jc 2 |jc,) = 309.85, 
SCR(jc 3 |jc,,;c 2 ) = 29.21, 
SCR(jc 4 | jc, , jc 2 , jc 3 ) = 2873.95. 

Las dos columnas que se encuentran inmediatamente a la derecha de la columna 
que corresponde a "SC tipo I", dan los valores de las pruebas F parciales y los valo- 
res correspondientes/? para cada una de las cuatro componentes. A partir de esta in- 
formación, es claro que el efecto individual de cada coeficiente de regresión en pre- 
sencia de otros términos en el modelo es estadísticamente apreciable. 

La SC tipo IV representa la reducción en la suma de los cuadrados de los errores 
debida a la edición, en el modelo, de la variable de predicción correspondiente, dado 
que las otras tres ya se encuentran en el mismo. Para el ejemplo, las componentes 
son 

SCR(jc, |jc 2 ,jc 3 ,jc„) = 25.82, 

SCR(jc 2 |jc,,jc 3 ,jc 4 ) = 11.20, ^ 

SCR(jc 3 |jc,,jc 2) jc 4 ) = 130.68, 

SCR(jc 4 |jc,,jc 2) jc 3 ) = 2873.95. 

Nótese que no existe ninguna razón teórica para que la suma de estas cuatro compo- 
nentes sea igual a SCR (jC| , x 2 , * 3 , x 4 ): 

Con base en los valores de las pruebas F parciales para estas componentes, es cla- 
ra la existencia de cierta discrepancia entre estos resultados y los que se tienen para 
SC tipo I. Por ejemplo, la contribución de jc 2 en presencia sólo de x t , es estadística- 
mente discernible, pero no puede decirse lo mismo de la contribución de x 2 en pre- 
sencia dex,, x } y x 4 . 
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14.4 El problema de la multicolinealidad 

Es muy común obtener conclusiones equivocadas con un punto de vista casual para 
la aplicación de análisis de regresión, cuando no se tiene una completa apreciación de 
los problemas que pueden encontrarse. En la sección anterior se notaron varias de las 
discrepancias que pueden presentarse en la regresión lineal múltiple. Éstas pro- 
porcionan información valiosa para identificar problemas que necesitan una aten- 
ción adicional. El enfoque para el análisis de regresión no debe ser simplemente 
maximizar el coeficiente de correlación múltiple sin tomar en cuenta la debida consi- 
deración de los coeficientes de regresión estimados y sus desviaciones estándar, o la 
de comprobar las suposiciones fundamentales del análisis de regresión. 

Un problema frecuente en regresión lineal múltiple es el que algunas de la varia- 
bles de predicción están correlacionadas. Si la correlación es pequeña, las consecuen- 
cias serán de índole menor. Sin embargo, si existe una correlación muy fuerte entre 
dos o más variables de predicción, los resultados de la regresión serán ambiguos, es- 
pecialmente con respecto a los valores de los coeficientes de regresión estimados. Un 
coeficiente de correlación muy alto entre dos o más variables de predicción constitu- 
ye lo que se conoce como multicolinealidad. Este problema muchas veces es difícil 
de detectar ya que surge como consecuencia de datos deficientes. Éste es el precio 
que se paga cuando no es posible diseñar los experimentos en forma estadística y re- 
cabar los datos en arreglos balanceados, tal como se analizó en el capítulo 12. 

Recuérdese que la ecuación de predicción, a pesar de que no es precisa en un sen- 
tido físico, debe ser un medio, empírico, viable para predecir la respuesta promedio 
dada una condición de las variables de predicción. La multicolinealidad no impide 
tener un buen ajuste ni evita que la respuesta sea, en forma adecuada, predicha 
dentro del intervalo de las observaciones; lo que sucede es que ésta afecta en forma 
severa las estimaciones de mínimos cuadrados, ya que bajo los efectos de la multico- 
linealidad éstas tienden a ser menos precisas para los efectos individuales de las va- 
riables de predicción, es decir, cuando dos o más variables de predicción son colinea- 
les los coeficientes de regresión estimados no miden los efectos individuales sobre la 
respuesta, sino que reflejan un efecto parcial sobre la misma, sujeto a todo lo que 
pase con las demás variables de predicción en la ecuación de regresión. 

Para apreciar la naturaleza de la multicolinealidad, primero se estudiará una si- 
tuación en la que ésta no existe. Considérese un modelo de regresión con dos varia- 
bles de predicción. Si el coeficiente de correlación simple entre las dos variables es 
cero, entonces se dice que las variables son ortogonales.* Al tener variables de pre- 
dicción ortogonales el efecto que una de éstas tiene sobre la respuesta dada se mide 
en forma totalmente independiente del efecto individual que la otra variable tiene 
sobre la misma respuesta. Si una o ambas variables de predicción se encuentran en la 
ecuación de regresión, las estimaciones de mínimos cuadrados no cambiarán su 
valor 



* Una de las principales razones para diseñar experimentos en forma estadística es la de adquirir factores 
o variables que sean ortogonales. Para muchos de los experimentos que emplean el análisis de varianza, 
los factores son ortogonales. 
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TABLA 14.6 Datos de la muestra para el ejemplo 14.2 



Y(°F) 


x,CF) 


x¿%) 


66 


70 


20 


72 


75 


20 


77 


80 


20 


67 


70 


\ 30 


73 


75 


30 


78 


80 


30 


68 


70 


40 


• 74 


75 


40 


79 


80 


40 



Fuente: Servicio Climatológico Nacional. 



Ejemplo 14.2 Para ilustrar los efectos ortogonales se examinarán los datos (limita- 
dos) que aparecen en la tabla 14.6 que consisten en la temperatura aparente y (qué 
tan caliente se siente) como una función de la temperatura del aire jc, y de la hume- 
dad relativa x Y 

El lector no tendrá ningún problema pra verificar que el coeficiente de correla- 
ción entren, y x 2 tiene un valor de cero. Se procederá a ajustar los modelos 
Y = /3o + Ptx, + e, Y = /3 + /3 2 * 2 + e, y Y = /3 + /8,x, + /3 2 x 2 + e. La 
información relevante se encuentra en la tabla 14.7. 

Nótese que los coeficientes de regresión estimados parax, y x 2 son 1.10 y 0.10, 
respectivamente, sin importar que una o ambas variables de predicción se encuen- 
tren en la ecuación de regresión. De esta forma, por cada grado que aumenta la tem- 
peratura del aire, la temperatura aparente aumenta en 1 . 10 grados, y por cada incre- 
mento en porcentaje de la humedad relativa, la temperatura aparente aumenta 0.10 
grados.* Además, nótese que 

SCR(jc 2 |jc,) =SCR0c 2 ), 

SCRÍjc, , x 2 ) = SCR(jc, ) + SCR(jc 2 ). 

Los resultados anteriores son los que se esperan cuando las variables de predicción 
son ortogonales y no existe multicolinealidad. 

Si se consideran de nuevo los datos de Prater y las regresiones que incluyen a x 2 o 
x v dadas en la tabla 14.3, se mostrará que existe una razón para sospechar la exis- 
tencia de multicolinealidad entre x 2 y x,. Primero, nótese que el coeficiente de regre- 
sión estimado para x 2 es 1 .57 cuando sólo se encuentra presente en la ecuación de 
regresión x 2 , pero su valor es de 2.26 cuando se añade x y De manera similar, el coefi- 
ciente de x i es -0.09 para el modelo de línea recta, pero éste cambia tanto en signo 
como en valor para ser igual a 0.05 cuando también se incluye a x 2 en la ecuación de 
regresión. Segundo, es claro que la reducción en el valor de la suma de los cuadrados 

* El lector no debe generalizar de estos resultados por lo limitado de los datos. 
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TABLA 14.7 Ecuaciones de regresión estimadas y tablas ANOVA para la temperatura apa- 
rente, tomando a *, y/o x 2 . 

y = -9.83 + I.IOjc, 



Fuente de 
variación 



g! 



SC 



CM 



Valor F 



Regresión 

Error 

Total 



1 SCR(x,) = 181.5 

7 SCE (x,) = 6.5 



CMR(x,) = 181.5 
CME(jc,) = 0.9286 



STC = 188.0 



/o.W.1.7 = 5.59 



195.46 



y = 69.67 + 0.1 0x 2 



Fuente de 
variación 



Regresión 
Error 



Regresión 

x, 

x 2 | x¡ 
Error 

Total 



gl 



SC 



CM 



l SCR(* 2 ) = 6.0 

7 SCE(jc 2 ) = 182.0 



CMRfe) = 6.0 
CMEfc) = 26.0 



2 SCR(jt,, x 2 ) = 187.5 

1 SCR(jc,) = 181.5 

1 SCRfe | jc,) = 6.0 

6 SSE(jc,, x 2 ) = 0.5 



Valor F 



0.23 



Total 


8 


STC = 188.0 /0.95.1.7 


= 5.59 








y = 12.83 + I.IOjc, + 0.10jc 2 




- 


Fuente de 
variación 


gl 


SC 


CM 


Valor F 



CMRU,, x 2 ) = 93.75 1125.0 

CMRU,) = 181.5 2178.0 

CMR(jc 2 | jc,) = 6.0 72.0 

CMEU,, x 2 ) = 0.0833 



8 



STC 



188.0 



/o95.2,6 - 5.14, /o.95, 16 "• 5.99 



de los errores debida a x 3 cuando x 2 se encuentra en el modelo, SC7?(jc 3 | x 2 ) = 21 .75 
es mucho menor que cuando sólo se encuentra x 3 en el modelo, SCR(x 3 ) = 353.70. 
La fuerte correlación que en forma aparente existe entre x 2 y x } ha disminuido de 
manera drástica el efecto individual que sobre la respuesta tiene x } en presencia 
de x 2 . Puede hacerse el mismo comentario con respecto al efecto de x 2 , ya que éste 
es estadísticamente apreciable en ausencia de x^ (SCR(x) = 525.74, / = 5.19), 
pero se encuentra sustancialmente disminuido cuando x } se encuentra presente 
(SCR(x 2 | x } ) = 193.79). 

Para mostrar que existe una fuerte correlación entre x 2 y x } , se determinará la 
matriz de correlación para las cuatro variables de predicción de los datos de Prater. 
Esta matriz contiene todos los pares posibles de coeficientes de correlación y puede 
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determinarse para un conjunto dado de variables en forma muy fácil mediante el 
empleo de un paquete para computadora.* La matriz de correlación para *, , x 2 , * 3 , 
y x 4 es la siguiente: 





*l 


x 2 


Xi 


x 4 


X\ 


1.00 


0.62 . 


-0.70 


-0.32 


x 2 


0.62 


1.00 


-0.91 


-0.30 


Xi 


-0.70 


-0.91 


1.00 


0.41 


x 4 


-0.32 


-0.30 


0.41 


1.00 



Nótese que el valor de cada uno de los elementos que se encuentran en la diago- 
nal es uno, ya que cada variable se encuentra correlacionada de manera perfecta 
consigo misma. Los elementos que se encuentran fuera de la diagonal son los valores 
de los coeficientes de correlación simple. Por ejemplo, r n = 0.62 es el coficiente de 
correlación entre x l0 y x¿ por lo tanto, el valor r^ = -0.91 al encontrarse muy 
cercano a -1 sugiere una fuerte asociación lineal entre * 2 y x r Este resultado es pre- 
decible si se inspeccionan en forma visual los datos dados en el ejemplo 14.1 . Nótese 
que conforme aumenta la presión de vapor del petróleo crudo x 2 , el punto x 3 ASTM 
10% disminuye y viceversa. Estos resultados proporcionan la causa para sospechar 
la presencia de multicolinealidad en este ejemplo. 

¿Qué es lo que se puede hacer cuando se descubre la presencia de multicolineali- 
dad? Una alternativa es la de añadir puntos de observación para las variables coli- 
neales, los cuales tiendan a disminuir la severidad de la correlación. Pero puede 
ocurrir que estos puntos de observación no se encuentren disponibles fácilmente. 
Por ejemplo, para los datos de la gasolina podrían no existir los tipos de petróleo 
crudo que pueden disminuir la fuerte linealidad que existe entre x 2 y x y Una segunda 
alternativa es la de omitir una o más de las variables que son colineales, lo que reduce 
la variabilidad de los coeficientes de regresión de las restantes variables. Se han desa- 
rrollado enfoques más sofisticados para resolver los problemas que plantea la mul- 
ticolinealidad, incluyendo la regresión por componentes principales y la regresión 
ridge. Estos temas se encuentran más allá del objetivo de este libro; se invita al lector 
a que consulte las referencias [1] y [3]. 

Para ilustrar la segunda alternativa y resolver el problema de la multicolineali- 
dad, se examinarán las regresiones para las cuales se omiten x 2 o x r Como compara- 
ción, también se considerará la regresión de la producción de gasolina con respecto 
sólo al punto (x 3 ) ASTM 10% y al punto final (x 4 ). Sin proporcionar argumentación 
adicional se piensa que estas tres regresiones son las candidatas para la "mejor" 
ecuación de regresión lineal para los datos de Prater. La información más importan- 
te se encuentra en la tabla 14.8. 

Al comparar parece que la regresión de Y sólo sobre x 2 y jc 4 es la mejor con respec- 
to a las proporcionadas por los otros dos modelos. Para el modelo b, la desviación es- 
tándar del estimador por mínimos cuadrados para el término constante es muy gran- 



Para SAS puede ser apropiado utilizar PROC CORR. 
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TABLA 14.8 Candidatos para la mejor ecuación de regresión para los datos de Prater 

a) Regresión de Y sobre jc, , x 2 , jc 4 



Variable 



Fuente 



Regresión 
x 2 | JC, 

x 4 | *\ . *2 

Error 



Constante 
x¡ 

x 4 



Fuente 



Coeficiente 
de regresión estimado 



Desviación 
estándar estimada 



Valor t 



Constante 


'-53.899 


*i 


0.422 


Xl 


2.154 


x 4 


0.144 



5.8135 
0.1273 
0.2716 
0.0084 



-9.27 
3.32 
7.93 

17.10 



R 



2 _ 



0.9255 



to.m.i» = 2.048 



ANOVA 



g¡ 



SC 



CM 



Valor F 



28 



3298.60 
216.26 
309.85 

2772.49 
265.48 



1099.53 
216.26 
309.85 

2772.49 
9.48 



115.97 
22.81 
32.68 

292.41 



Total / 


31 3564.08 /o., 5 ,3, 28 = 2.95; A*. 


.28 = 4.20 


b) Regresión de /sobre jc, , jc 3 , jc 4 


Variable 


Coeficiente Desviación 
de regresión estimado estándar estimada 


Valor t 



4.032 

0.222 

-0.187 

0.157 



7.2233 
0.1021 
0.0159 
0.0065 



0.56 

2.17 
-11.72 

24.22 



R 2 = 0.959 



2.048 



ANOVA 



*/ 



SC 



CM 



Valor F 



Regresión 


3 


3418.08 


1139.38 




218.51 


x, 


1 


216.26 


216.26 




41.47 


Xi | x, 


1 


142.08 


142.08 




27.25 


x 4 | X u Xy 


1 


3059.74 


3059.74 




586.79 


Error 


28 


146.00 


5.21 






Total 


31 


3564.08 


fo.95, ). 28 = 


2.95; /,,„. 


,.28 = 4.20 



• -. 



(continúa) 
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TABLA 14.8 .(continuación) ¡ ' vU 

. í ., . , c/ Regresión de Y sobre jc 3 , jc*, . ■:■:-, .¡:-L-.-. •. 



Variable 


Coeficiente 
de regresión estimado 


' Desviación ''' 
estándar estimada 




Valor t 


Constante 
.c 4 


18.468 

-0.209 

0.156 


- 


\ 


3.0090 
0.0127 
0.0069 




6.14 
- 16.43 

22.73 




, R 2 = 0.9521 


ANOVA 


1.975. 


M = 2.045 






Fuente 


gl ^ 


SC 




CAÍ 




Valor F 


Regresión 

*3 

Error 


2 
1 
1 
29 


3393.47 
353.70 
3039.77 
170.61 




1696.73 

353.70 
3039.77 
5.88 


228.41 

60.12 

516.69 


Total 


31 


3564.08 




fo.95. 2. 29 = 3.33; 


■ ft>.9S. 


1.29 = 4.18 



de, y la desviación estándar del coeficiente x , es casi igual a la mitad del valor de éste. 
Para el modelo a, R 2 = 0.9255, mientras que para el modelo c, R 2 = 0.9521, el 
cual es un valor mucho más cercano al valor de R 2 cuando todas las variables de pre- 
dicción figuran en la ecuación de regresión. Además, las desviaciones estándar de los 
coeficientes de regresión estimados son, en forma relativa, mejores para el modelo c 
que para el b. Para finalizar, los factores físicos claves como la consistencia lógica 
de los coeficientes de regresión estimados, son los que por lo general definen la elec- 
ción final. 
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Un problema muy importante en el análisis de regresión es determinar cuáles de las 
variables de predicción en la lista inicial deberán incluirse en el modelo de regresión. 
En casi todas las ocasiones, un investigador decidirá, de una lista inicial de variables 
de predicción, a aquéllas que tienen la mayor probabilidad de contener los factores 
más importantes para la respuesta dada. Por lo tanto, es necesario tener una manera 
de determinar, de la lista inicial de variables de predicción, a aquéllas que parecen 
ser las mejores para describir el cambio en la respuesta promedio, y de esta forma 
proporcionarán una ecuación de predicción representativa de las condiciones bajo 
las cuales se recabaron los datos. La palabra "mejores" no debe interpretarse como 
poseedora de la connotación teórica de óptimo; ésta debe considerarse como repre- 
sentativa de los medios por los cuales se aislan las características más sobresalientes, 
de tal manera que puede llevarse a cabo un análisis significativo. 
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Sea k el número inicial de potenciales variables de predicción; el número de térmi- 
nos en el modelo lineal completo, incluyendo al término constante, es m = k + 1 . 
Un procedimiento que es muy recomendable para determinar el mejor conjunto de 
variables de predicción por incluir en la ecuación de regresión es calcular y comparar 
todas las posibles 2* ecuaciones de regresión. Con este proceso se tendrá una 
ecuación, la cual no contiene ninguna variable de predicción (Y = Y), ¿ecuaciones 
cada una con una variable de predicción, k(k - l)/2 ecuaciones con dos variables de 
predicción y así sucesivamente. El procedimiento proporciona al investigador la 
oportunidad de evaluar y comparar todas las ecuaciones de regresión y, con base en 
la investigación de todas las discrepancias aparentes, debe surgir la mejor ecuación. 
Dado que hoy en día la capacidad de cómputo es muy extensa, la determinación de 
todas las posibles ecuaciones de regresión es el mejor método, aun si k tiene un valor 
tan grande como 9 o 10. 

Cuando k es grande, puede no ser práctico determinar y evaluar todas las posi- 
bles ecuaciones de regresión. Fura estos casos, se han desarrollado técnicas para la 
selecc'ón de las variables que pueden proporcionar al usuario información muy útil, 
sin tener que evaluar todas las posibles ecuaciones de regresión. Sin embargo, estas 
técnicas tienen algunos inconvenientes y no deben considerarse como iguales con 
respecto a la evaluación de todas las posibles regresiones. Mientras que los procedi- 
mientos para la selección de variables dan resultados confiables, cuando la muticoli- 
nealidad no es problema, éstos producirán resultados contradictorios para datos co- 
lineales. De esta forma, si se sospecha la presencia de multicolinealidad, no deberán 
emplearse métodos para la selección de variables. La técnica más usual de selección 
de variables emplea un procedimiento de regresión por pasos para obtener la mejor 
ecuación de regresión. Existen dos versiones principales de esta técnica: la selección 
hacia adelante y la eliminación hacia atrás. 

El procedimiento de selección hacia adelante comienza con una ecuación que no 
contiene variables de predicción. La primera variable incluida en la ecuación es 
aquella que produce la mayor reducción en el valor de la suma de los cuadrados de 
los errores; ésta es la variable de predicción con el coeficiente de correlación simple 
más alto para la respuesta dada. Con base en una prueba de hipótesis, si el coeficien- 
te de regresión es significativamente diferente de cero, la variable permanece en la 
ecuación y se comienza la búsqueda de una segunda variable. La segiyida variable 
por incluir en la ecuación es aquella que produce la mayor reducción en la suma de 
los cuadrados de los errores, dada la presencia de la primera variable.* Ésta es la va- 
riable que posee el coeficiente de correlación más alto con la respuesta, después de 
que ésta se ha ajustado para tomar en cuenta el efecto de la primera variable. Si la 
significancia estadística es discernible para el coeficiente de regresión de la segunda 
variable, ésta se mantiene en la ecuación y se comienza la búsqueda de una tercera 
variable de predicción. El proceso se continúa de esta forma hasta que la significan- 
cia estadística no sea discernible para el coeficiente de la última variable que ha 
entrado a la ecuación. 

El procedimiento de eliminación hacia atrás comienza con la ecuación de regre- 
sión que contiene a todas las variables de predicción. Entonces se eliminan, una a la 

* En este momento pueden surgir dificultades cuando los datos son colineales. 
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vez, las variables menos importantes con base en su contribución a la reducción en el 
valor de la suma de los cuadrados de los errores. Por ejemplo, la primera variable 
por omitir será aquella cuyo efecto sobre la reducción en el valor de la suma de los 
cuadrados de los errores, dada la presencia de las demás variables, sea el más peque- 
ño. El procedimiento concluye cuando los coeficientes de todas las variables que aún 
permanecen en la ecuación tienen una significancia estadísticamente discernible. 

El procedimiento de selección hacia adelante se ha modificado de tal manera que 
se considere la posibilidad de eliminar una variable en cada etapa. Esta modificación* 
da origen a lo que en forma usual se conoce en los paquetes de computación como 
procedimiento de regresión por pasos (stepwise). Con este método puede eliminarse, 
en una etapa posterior, una variable de predicción cuya inclusión se llevó a cabo en 
una etapa anterior. De nuevo, el proceso de decisión se basa en la reducción en el 
valor de la suma de los cuadrados de los errores y de las pruebas F parciales y depen- 
de de la combinación particular de las variables que se tienen en la ecuación de regre- 
sión. 

Con el desarrollo de paquetes para computadora cada vez más elaborados se 
tienen disponibles otras técnicas, pero la característica común sigue siendo el valor 
de la suma de los cuadrados de los errores cuando una variable entra a (o es removi- 
da de) la regresión, dada la presencia de las demás variables de predicción. Para 
datos "con buen comportamiento", los procedimientos de regresión por pasos y de 
eliminación hacia atrás en general proporcionan los mismos resultados. Si existe algu- 
na diferencia entre éstos, este hecho muchas veces constituye una buena indicación 
para considerar el problema con mayor cuidado, así como la realización de análisis 
adicionales. 

Para evaluar y comparar las ecuaciones de regresión, de manera especial dentro 
del contexto de todas las posibles regresiones, es necesario tener criterios efectivos. 
Dos de los criterios más útiles son el del cuadrado medio del error (CME) y el criterio 
C p . Con el propósito de tener un panorama más completo, también se estudiará el 
coeficiente de correlación múltiple R 2 . 



1 . El criterio del cuadrado medio del error. Recuérdese que el cuadrado medio 
del error es igual a la varianza residual. Dado que CME es la suma de los cuadrados 
de los residuos dividida entre el número de grados de libertad de SCE, CMEtoma en 
cuenta el número de parámetros en el modelo a través del número de grados de liber- 
tad. Mientras que la suma de los cuadrados de los errores no puede aumentar si se 
permiten más variables en el modelo, no ocurre lo mismo con el cuadrado medio del 
error si la reducción en el valor de SCE es tan pequeña que no pueda compensar 
la pérdida del número de grados de libertad adicionales. Por ejemplo, recuérdese la 
tabla 14.3 y en particular los modelos a y c. Nótese que SCE(x 2 ) = 3038.34 es 
mayor que SCE (x 2 , x 3 ) = 3016.59, pero CME (x 2 ) = 101.28 es menor que 
(x 2 , jc 3 ) = 104.02. Con el criterio CME puede determinarse el conjunto de va- 
riables de predicción que minimice a CMEo casi lo haga en el momento para el que 
la introducción de más variables de predicción en la ecuación de regresión ya no se 
encuentre garantizada. 

2. El criterio C p . Recuérdese que la varianza residual S 2 es un estimador no ses- 
gado de la varianza del error a 2 sólo cuando se ha escogido la forma correcta para el 
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modelo de regresión. De otra forma, puede demostrarse que | 



£a? ■■■ 

E(S 2 ) = <r 2 + f^— . (14.27) 

(« - p) 

donde /? es el número de términos que aparecen en el modelo, incluido el término 
constante y 

A, = E(Y,) - E(Y,) 

es el sesgo. 

Supóngase que la ecuación de regresión, la cual contiene k variables de predic- 
ción, se ha escogido en forma cuidadosa, de tal manera que CME = S 2 es un estima- 
dor no sesgado de o 2 . Pero para cualquier ecuación de regresión que sólo contenga a 
un subconjunto de las k variables de predicción, es posible que A¡ f 0, y las predic- 
ciones de la respuesta con base en la ecuación de regresión estimada rueden en- 
contrarse sesgadas. Para evaluar la efectividad de esta ecuación de regresión, 
como un medio para formular predicciones, debe considerarse el cuadrado medio 
del error de un valor predicho, mas que la varianza de éste. El cuadrado medio del 
error total estandarizado que se define como 

r p = -^¿CME(l>;.) 



o- 2 



2 A? + 2 Var(Y¡) 



(14.28) 



se ha propuesto como un criterio apropiado de la bondad del ajuste para una 
ecuación de regresión estimada la cual contiene/? términos. La cantidad Y p conside- 
ra tanto a la componente del sesgo en Y¡, ya que algunas de las variables de predic- 
ción no se encuentran incluidas, así como a la varianza en Y¡ para todas las n obser- 
vaciones de la respuesta. A continuación se obtendrá un estimador para T p . • 
Puede demostrarse que 



2 Var(Y)= pa 



lo cual implica que la varianza total de la predicción aumenta conforme el número 
de términos en la ecuación de regresión también aumenta. Al sustituir en (14.28), 
se tiene 

r p = — 2 S A? + p. (14.29) 

CT i=i 

Dado que para una ecuación de regresión que contiene p términos 

SCE . = (« - p)Sl, 






se tiene 



14.5 Determinación del mejor conjunto de variables de predicción 529 



', 2*} 

o- 2 + 



= (n-p) _ 

,(« - p) 

= (n-'p)<r 2 + 2Af, 



Sa, 2 = £(SCE p ) - (*-p)o- 2 . 
Al sustituir en (14.29), se obtiene 

E(SCE„) - (n - p)o- 2 , 

= r - ^ - (n - p) + p 

£(SCE P ) 

= 2 - (n - 2p). 

cr 

Dado que SC^ es un estimador de E(SCE p )y S 2 k lo es a su vez de a- 2 , un estimador 
de t p es la estadística 



CSE„ 

Si 



C p = ^ - (n - 2p). (14.30) 



Nótese que SCE p es la suma de los cuadrados de los errores para la ecuación de re- 
gresión, la cual contiene p términos y que 5* = CMECr, , x 2 , ..., x k ) es el estimador 
de o- 2 basado en todas las k variables de predicción. 

Los valores deseables para C p para la bondad del ajuste de una ecuación de re 
gresión que contiene p términos son aquellos que se encuentran muy cercanos ap. 
Lo anterior surge del hecho de que si el sesgo de una ecuación de regresión de/? tér- 
minos es despreciable 1 A 2 = y E{SCYL P ) = (n - p)<r 2 . Bajo esta condición, 
el valor esperado de la estadística C p es 

E{C P | A, = 0) = { " ~ P 2 )<T - (n - 2p) 



De esta forma, cuando se obtienen todas las posibles regresiones, se calcula un valor 
de C p para cada caso. Las regresiones que tienen valores de C p cercanos ap se consi- 
deran como deseables. 

Puede ser benéfico aceptar un pequeño sesgo en la predicción, mediante la elimi- 
nación de algunas variables de predicción, aun si sus coeficientes de regresión son es- 
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tadísticamente significativos, con excepción de los que tienen un valor igual a 
cero. Lo anterior es especialmente cierto si los coeficientes de regresión del nuevo 
modelo se estiman con varíanzas pequeñas; además, dado que la varianza total de la 
predicción aumenta conforme se añaden mas variables al modelo de regresión, 
puede ser ventajoso eliminar algunas variables con el propósito de disminuir el error 
promedio de la predicción. 

Además de considerar a CME y a C p , también se debe considerar el coeficiente de 
correlación múltiple R 2 para evaluar las ecuaciones de regresión. Dado que R 2 varía 
en forma inversa a como lo hace la suma de los cuadrados de los errores, R 2 aumen- 
tará conforme se añadan más variables al modelo de regresión y R 2 alcanzará su 
valor máximo cuando todas las variables de predicción se encuentren en la ecuación 
de regresión. Por lo tanto, la razón para emplear a R 2 como un criterio, no es la de 
encontrar el conjunto de variables que maximiza R 2 , sino más bien determinar el 
punto más allá del cual sumar más variables no es deseable, ya que el incremento que 
se tiene en R 2 es mínimo. 

Para proporcionar una ilustración de todas las posibles regresiones y sus compa- 
raciones, tomando en cuenta los criterios anteriores, de nuevo considérense los datos 
de Prater. La tabla 14.9 contiene las estimaciones por mínimos cuadrados para los 
coeficientes de cada regresión (distintas de la trivial y¡ = y = 19.66), y la tabla 
14.10 identifica los correspondientes valores de SCE, CME, C p y R 2 . 

El cuadrado medio del error cuando las cuatro variables de predicción se encuen- 
tran en el modelo de regresión es CMEt*i , x 2 , x } , x 4 ) = 4.99. De esta forma, por 
ejemplo, para obtener el valor de C p para la regresión de y sobre *,, x 3 , y x 4 ,se 
tiene que SCE(x u x 3 , x 4 ) = 146.00, p = 4, n = 32 y 



C 



146 
4.99 



(32 - 8) = 5.26. 



: 

TABLA 14.9 

r 


Todas las 


regresiones posibles para los datos de Prater 






|; Variables de predicción 












en el modelo 




b 


*i 


b 2 


b> 


b A 


X) 






1.264 


0.469 








x z 






13.087 




1.572 






A, 






41.389 






-0.090 




A-t 






- 16.662 








0.019 


-V|, x 2 






12.256 


0.025 


1.539 






A'|. A", 






35.174 


0.096 




-0.080 




A 1 . -V 4 






-64.951 


1.009 






0.136 


A : . .V, 






- 2.524 




2.257 


0.053 




A; . V 4 






-37.808 




2.677 




0.139 


-V,. Aj 






18.468 






-0.209 


0.156 


Al . A, , 






-11.013 


0.125 


2.278 


0.067 




A,, A",. 


-V 4 




-53.899 


0.422 


2.154 




0.144 


A,. A,, 


-v 4 




4.032 


0.222 




-0.187 


0.157 


A. . .r, , 


Xa 




8.562 




0.523 


-0.175 


0.154 


A,, A,, 


X). ,v 4 




- 6.821 


0.227 


0.554 


-0.150 


0.155 
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TABLA 14.10 Criterios de bondad de ajuste para todas las posibles regresiones para tos da- 
tosdePrater • "• ^ ■..,'■.-.. -<"-.-■ '• :>i- '. ■'.,■ ■■■'..-■-.Un >; ■•:. ; ^ oííKjfí'.aK; ... 

L__ : ; _ _2j : -•: v- v..- ': V"' ■■■■-, ' ■;•> ,' vr-,. : íijQO 'iUi> 



Variables de predicción 



R l 



SCE 



^ CME»í£?f <ítós¡íi*«iÍF; '- 



f 2 
•«3 
•«4 
JC,, JC 2 






•«3 
•*4 



•«2. -*3 

-*2 > X A 
X), x 4 
X\, Xj, X-j 

JC] , X2 » Xq 
X\ , X3 , x$ 
Xj . .X3 , X4 

x, , ,r 2 , x 3 , 



x 4 



0.0607 


3347.82 


111.59 


642.91 


0.1475 


3038.34 
Y 3210.38 


101.28 


580.89 


0.0992 


107.01 . 


>, 615.36 


0.5063 


1759.69 


58.66 


„, r( .324.64 


0.1476 


3037.97 


104.76 


■ 582.81 


0.1005 


3205.74 


110.54 


; 616.43 


0.7582 


861.95 


29.72 


' 146.74 


0.1536 


3016.59 


104.02 


578.53 


0.8962 


369.87 


12.75 


48.12 


0.9521 


170.61 


5.88 


8.19 


0.1558 


3008.76 


107.46 


578.% 


0.9255 


265.48 


9.48 


29.20 


0.9590 


146.00 


5.21 


5.26 


9549 


160.62 


5.74 


8.19 


0.9622 


134.80 


4.99 


5.00 



Al tomar en cuenta, tanto a CME como C p , la mejor ecuación de predicción 
para la producción de gasolina debe seleccionarse de las regiones que incluyen 
(* 3 , * 4 ), (x t ,Xy, x 4 ), (x 2 ,x 3 , Xt)> y (xi,x 2 , x } , jc 4 ). Esta última no es en particular atrac- 
tiva, ya que las estimaciones de los coeficientes de regresión para el término constante y 
para x 2 tienen desviaciones estándar muy grandes. A pesar de que la ecuación de re- 
gresión que contenga x 2 , x } ,y x 4 tiene valores de CME y C p muy cercanos a los óp- 
timos, ésta carece de una precisión satisfactoria para la estimación del coeficiente de 
x v dado que b 2 = 0.523, con s{B 2 ) = 0.396. Puede decirse lo mismo de la regre- 
sión que comprenda a x t , x 3 ,y x 4 para las estimaciones de (3 y del coeficiente de*, 
(véase el modelo b en la tabla 14.8). De acuerdo con lo anterior, se acepta un peque- 
ño sesgo en la predicción y se concluye que la ecuación de regresión que contiene a x z 
y a x 4 es la mejor para predecir la producción de gasolina en el intervalo de valores 
de las observaciones. 

A continuación se dan las etapas por seguir en un procedimiento de regresión 
paso a paso: 



1 . El procedimiento comienza mediante la obtención de k ecuaciones de regresión li- 
neal simples. 
La estadística F 

F = CMR(jt. )/CME(x, ) 

se calcula para cada /' = 1, 2, ..., k variables. Si el mayor valor F excede un ni- 
vel de significancia estadística, previamente determinado, la variable correspon- 
diente es la primera que se incluye en la regresión. De otro modo, la mejor 
ecuación es Y = 7. Este proceso es idéntico al que se sigue para determinar la 
variable de predicción que tiene la mayor correlación con la respuesta. 
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2. Supóngase que la variable x 3 entra a la ecuación de regresión en el paso 1 . En este 
momento, el procedimiento de regresión paso a paso calcula todas las ecuaciones 
que contienen dos variables, incluyendo a x y Para cada caso, el valor de la esta- 
dística F parcial , \ 

F=CMR(jc,|jc 3 )/CME(* / ,*3) 

* ■ 

se calcula para determinar si puede rechazarse H : /3, = en presencia dex r Si 
el mayor valor de F es suficiente para la significancia estadística, la segunda va- 
riable correspondiente se añade a la ecuación. 

3. Supóngase que se añade x l a la ecuación en el paso 2. El procedimiento continúa 
mediante un examen para determinar si alguna de las otras variables que ya se en- 
cuentran en la ecuación debe eliminarse ahora; en este caso, ésta podría ser x y Se 
calcula el valor de la estadística F parcial 

F=CMRU,|jf,)/CME(. M ,JC,) 

y se compara con un nivel predeterminado de significancia. Si el efecto de x 3 dado 
x, no es estadísticamente discernible, se elimina ax 3 de la ecuación; de otro modo 
se retiene. Para etapas posteriores existirá un cierto número de las pruebas F par- 
ciales para todas las variables que se añadieron en etapas anteriores. La variable 
que puede eliminarse es aquella para la que el valor de F es el más pequeño. 

4. Supóngase que se retiene a x 3 ; en este momento la ecuación de regresión incluye a 
x, y a x y El proceso se continúa mediante un examen para determinar cuál de las 
variables restantes es candidata para incluirse en el modelo. Entonces, se examina 
si alguna de las variables que ya se encuentran incluidas debe eliminarse ahora. El 
proceso termina cuando ninguna de las demás variables de predicción puede aña- 
dirse o eliminarse del modelo de regresión. 

Se deja como un ejercicio para el lector emplear los datos de producción de ga- 
solina con todas las opciones de selección posibles de variables y se compararán los 
resultados. 



14.6 Análisis de residuos o residuales 

En la sección anterior se examinaron algunas formas para determinar la "mejor" 
ecuación de regresión, bajo las circunstancias impuestas por el conjunto de datos. 
Una manera muy efectiva de detectar las posibles deficiencias de un modelo radica 
en llevar a cabo un análisis de residuos. Ningún otro aspecto es tan importante en el 
análisis de regresión como el análisis de los residuos. El conocido economista Paul 
A. Samuelson comentaba: "al científico que hace predicciones le recomiendo que 
siempre estudie sus residuales". 

Como se hizo notar en el capítulo 12, el análisis de los residuos puede descubrir 
las violaciones de las suposiciones o las deficiencias del modelo. Se examinarán tres 
deficiencias muy comunes: la ecuación de regresión puede no ser lineal en las varia- 
bles de predicción; la varianza del error <r 2 puede no ser constante y una o más de las 
variables de predicción que ejercen una influencia importante pueden no estar in- 
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cluidas en el modelo. También se considerará el problema de las observaciones dis- 
crepantes o aberrantes, que son aquellas cuyos valores se encuentran alejados del 
comportamiento general del resto de los datos. 

Recuérdese que el /-ésimo residuo e¡ es la diferencia numérica que existe entre el 

valor observado y,- y el correspondiente valor estimado y¡, para toda i = 1,2 n. 

El residuo e¡ se considera como una estimación del verdadero error no observable 
e, . El error cuadrático medio es la varíanza de los Residuos, la que a su vez es una es- 
timación de cr 2 . 

En esencia, el análisis de residuos significa realizar un análisis de sus gráficas de 
los residuos. Si se ha definido la ecuación de regresión en forma correcta y no existe 
ninguna deficiencia, entonces una gráfica de los residuos contra cualesquiera de los 
valores estimados y¡ a los correspondientes valores de cada variable de predicción 
en la ecuación no mostrará ningún patrón, es decir, no existirá ninguna relación 
entre los residuos y los valores ajustados o entre los residuos y ios valores de las va- 
riables de predicción. Si existe alguna relación, ésta sugerirá el hecho de que hay una 
deficiencia en la ecuación de regresión. Para detectar las áreas de problemas a través 
del análisis de los residuos, es preferible, de nuevo, emplear los residuos estandariza- 
dos. Dado que la media de los residuos es igual a cero, 

e¡, = e¡/s 

de fine al /-ésimo residuo estandarizado donde s es la desviación estándar residual 
(VCME). Debe notarse que si el tamaño de la muestra n es muy grande, la distribu- 
ción de los residuos estandarizados deberá encontrarse aproximada en forma ade- 
cuada por una distribución normal estándar. De hecho, muchos investigadores han 
sugerido que cualquier alejamiento notable de la normalidad en la distribución de 
los residuos puede indicar una deficiencia en el modelo. 

Para determinar si un modelo de regresión es lineal o no en las variables de pre- 
dicción, se grafican los residuos contra los correspondientes valores de cada una de 
las variables de predicción que figuran en la ecuación de regresión. Para determinar si 
la varianza del error es o no constante, se grafican los residuos estandarizados 
contra los correspondientes valores estimados de la respuesta. Finalmente, para de- 
terminar si una variable de predicción, potencialmente importante, debe incluirse o 
no en el modelo de regresión, se grafican los residuos contra los valores de esta va- 
riable. Si la ecuación de regresión estimada está prácticamente libre de cualquier de- 
ficiencia o violación de suposiciones, entonces los residuos estandarizados tenderán 
a encontrarse dentro de una banda horizontal centrada alrededor del valor cero, sin 
ninguna tendencia sistemática a ser positivos o negativos, y en forma muy rara se en- 
contrarán fuera del intervalo ±3, Cualquier desviación significativa con respecto a 
este comportamiento indicará la existencia de un problema. 

La figura 14.2 representa algunas gráficas usuales de residuos: a) cuando se en- 
cuentra presente un efecto cuadrático causado por una variable de predicción y que 
debe incluirse en el modelo; b) cuando la varianza del error no es constante y deben 
emplearse mínimos cuadrados con factores de peso (ponderados) para estimar los 
coeficientes de regresión y c) cuando una variable que se ha eliminado muestra una 
fuerte asociación (lineal) con los residuos y por lo tanto debe incluirse en el modelo 
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FIGURA 14.2 Gráficas comunes de residuos para: a) la presencia de un efecto cuadrático; 
b) la varianza no constante del error, y c) el efecto lineal de una variable omitida 



de regresión. Puede decirse más con respecto a estos tres casos. Si la ecuación de re- 
gresión contiene sólo un efecto lineal causado por una variable de predicción x, 
cuando en realidad existe un efecto cuadrático estadísticamente apreciable, entonces 
la gráfica de los residuos estandarizados contra x será una curva en forma de í/(o de 
U invertida). Bajo un efecto cuadrático, los residuos correspondientes a los valores 
extremos de x tenderán a ser grandes y positivos (negativos), y los residuos que se en- 
cuentran en la parte media del intervalo de valores de x tenderán a ser pequeños pero 
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negativos (positivos). En general, mediante la inclusión de un término cuadrático de 
x en eP modelo, mejora considerablemente el valor predictivo de la ecuación de re- 
gresión resultante con respecto a la ecuación previa. Los efectos de orden superior 
también pueden detectarse de la misma manera. 

1 Si la gráfica de los residuos da como resultado una figura en forma de cufia, en- 
tonce^ es posible que la suposición de que la varíanza del error es constante no se 
cumpla. En otras palabras, si existe una tendencia a aumentar o disminuir los re- 
siduos estandarizados al aumentar los valores estimados de la respuesta, la varíanza 
del error puede no ser constante. Esto da origen a lo que se conoce como modelo he- 
terocedástico. Para remediar esta situación se emplea el método de mínimos cuadra- 
dos con factores de peso, en donde los pesos son inversamente proporcionales a la 
varianza de los errores. De esta forma, en lugar de intentar determinar las estimacio- 
nes de los coeficientes de regresión mediante la minimización de la suma de los cua- 
drados de los errores, se determina el conjunto de valores para los cuales la suma de 
peso» de los cuadrados de los errores es un mínimo. El motivo para emplear míni- 
mos cuadrados con factores de peso en una situación heterocedástica es estimar los 
coeficientes de regresión con pequeñas desviaciones lo que a su vez produce un me- 
jor ajuste. 

Si cuando los residuos estandarizados se grafican contra una variable que no for- 
ma parte de la ecuación de regresión, pero bajo la cual se pudo observar la respues- 
ta, se observa una tendencia lineal (o de orden superior); entonces, como se mencio- 
nó en el capítulo 13, los errores no pueden considerarse más como independientes de 
esta variable. En general, este tipo de variable resulta ser un efecto demográfico o re- 
lacionado con el tiempo. Por ejemplo, para muchos experimentos en los que los da- 
tos se observan durante un periodo significativo, el investigador podría inicialmente 
decidir no incluir al tiempo como una variable de predicción potencial. Pero si los re- 
siduos revelan un patrón sistemático cuando se grafican contra el tiempo, la variable 
tiempo deberá introducirse en la ecuación de regresión. 

Las gráficas de residuos también son una ayuda al tratar con observaciones ex- 
tremas o discrepantes. En general, las observaciones extremas tienen residuos que 
son, en forma relativa, grandes, comparados con los de las demás observaciones. En 
general, el valor del residuo estandarizado de una observación discrepante se en- 
contrará más allá del intervalo _+ 3. Las observaciones discrepantes pueden crear si- 
tuaciones difíciles en una ecuación de regresión, debido a que tienen un efecto 
desproporcionado sobre los valores estimados de los coeficientes de regresión. Re- 
cuerde que una de las suposiciones de la estimación por mínimos cuadrados es que el 
conjunto de datos es típico de la situación para la cual se intenta identificar una buena 
ecuación de predicción. Por lo tanto, la remoción de cualquier observación del con- 
junto de datos no tendrá, en forma virtual, ningún efecto sobre la ecuación de regre- 
sión. Lo anterior constituye precisamente el porqué puede removerse, sólo con 
extremo cuidado, una observación discrepante. Un método lógico que se ha sugeri- 
do es remover una observación discrepante sólo si existe evidencia comprobada de 
que ésta es el producto de un error causado, por ejemplo, por un mal funcionamien- 
to del instrumento de medición. En ausencia de clara evidencia de error, la observa- 
ción discrepante puede ser información única con respecto a la respuesta y ser vital 
para el entendimiento del fenómeno. 



536 Análisis de regresión: el modelo lineal general 

Los siguientes dos ejemplos ilustrarán los casos a) y c) que se muestran en la figu- 
ra 14.2. El caso en el cual se tiene una varianza no constante se analizará en la sec- 
ción 14.8. ... .. 

Ejemplo 14.3 Una compañía manufacturera desea predecir el costo unitario de fa- 
bricación T de uno de sus productos como una función de la tasa de producción (que 
fluctúa en el tiempo) x t y de los costos de material y mano de obra x 2 . Los datos se 
recabaron durante un periodo de 20 meses durante el cual la tasa de producción y los 
costos del material y la mano de obra experimentaron una fluctuación muy amplia. La 
tasa de producción se midió como un porcentaje de la capacidad total de produc- 
ción, y se utilizó un Índice apropiado para reflejar los costos del material y mano de 
obra. Las observaciones se encuentran en la tabla 14.11. Obténgase la mejor 
ecuación de regresión para predecir el costo por unidad. 

Pri^er^ se supondrá un modelo de regresión lineal que sólo tome en cuenta a jc, 
y a x r En la tabla 14.12 se proporcionan las estimaciones y otra información impor- 
tante. Hasta aquí parece que todo marcha muy bien. Las estimaciones tienen sentido 
(valor negativo para el coeficiente jc, y positivo para el de x 2 ) , las desviaciones están- 
dar son pequeñas, el valor de R 2 es relativamente alto y todos los efectos son estadís- 
ticamente discernibles. Por lo tanto, se podría concluir que se ha obtenido una 
buena ecuación de predicción, pero una gráfica de los residuos estandarizados contra 
x l revela; un patrón cuadrático en la mitad superior de la figura 14.3. Ningún patrón 
es evidente para x 2 . 



TABLA 14.11 Datos de la muestra para el ejemplo 14.3 



Y 


*i 


x 2 


13.59 


87 


80 


15.71 


78 


95 


15.97 


81 


106 


20.21 


65 


115 


24.64 


51 


128 


21.25 


62 


128 


18.94 


70 


115 


14.85 


91 


92 


15.18 


94 


93 


16.30 


100 


111 


15.93 


102 


116 


16.45 


82 


117 


19.02 


74 


127 


18.16 


85 


133 


18.57 


86 


135 


17.01 


90 


136 


18.03 


93 


140 


19.22 


81 


142 


21.12 


72 


148 


23.32 


60 


150 



''§?*'. 
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TABLA 14.12 Análisis de regresión para el ejemplo 14.3 

Regresión de Y sobre jc, y x 2 



Variable 




Coeficiente 
de regresión estimado 


Desviación 
estándar estimada 




Valor t 


Constante - 

X\ 
-*2 




20.2800 

-0,1377 

0.0742 




\ 2.1300 
0.0159 
0.0110 




9.54 
-8.69 

6.77 




R 2 


= 0.914 


ANOVA 


'o.975, 17 = 


2.11 




Fuente 




gl 


SC 


CM 




Valor F 



Regresión 


2 


144.39 


72.19 






90.24 


x, 


1 


107.72 


107.72 






iJ4.65 


x 2 1 x, 


1 


36.67 


36.67 






45.84 


Error 


17 


13.59 


0.80 








Total 


19 


157.98 


/o.95, 2. 17 = 


3.59; 


/0.95. 


1. 17 = 4.45 



La gráfica de los residuos para x, implica que debe incluirse un término cuadráti- 
co en x, en el modelo de regresión. De esta forma, se ajustará el modelo 

Y = /3 + j8,jr, + /3 2 x 2 + fax 2 , + e 

obteniéndose los resultados que se muestran en la tabla 14.13. 

Una comparación con los resultados anteriores revela que la inclusión de un efec- 
to cuadrático en x, mejora en forma considerable la ecuación de regresión estimada. 
Por ejemplo, los coeficientes de regresión, tanto de x, como de x 2 , se estiman con una 
mejor precisión comparada con la anterior y el valor de R l se incrementa hasta 
0.981 . Además, la nueva gráfica de residuos contra x, (véase la Fig. 14.4) no muestra 
ningún patrón apreciable. 

Ejemplo 14.4 Recuérdese el ejemplo de los salarios iniciales contra la calificación 
promedio, empleado a través de todo el capítulo 13. Quizá el lector se pregunte si 
existiesen otras variables de predicción potenciales. Supóngase que también se ha 
observado la edad de cada estudiante en la muestra. Ya que algunas compañías 
tienen como requisito poseer alguna experiencia en el campo y un recién egresado de 
mayor edad podría tenerla, es posible que la edad de éste pueda influenciar en el sa- 
lario inicial que percibirá. Los datos, tomando en cuenta la edad, se encuentran en la 
tabla 14.14. 



Cuando se hace una gráfica de los residuos estandarizados de la ecuación de re- 
gresión estimada y = -6.63 + 8. 1 2 jc , contra los correspondientes valores de x, 
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TABLA 14.13 Análisis de regresión revisado para el ejemplo 14.3 

Regresión de 11 sobre jc, y jc 2 y x] 



Coeficiente 
Variable de regresión estimado 



Desviación 
estándar estimada 



Valor t 



Constante 


41.550000 


*i 


-0.700300 


x 2 


0.073400 


x\ 


0.003624 



3.050000 


13.64 


0.076200 


-9.20 


0.005400 


13.68 


0.000488 


7.43 





R 2 


= 0.981 


ANOVA 


'0.975, i6 — 2.12 




Fuente 




gl 


SC 


CM 


Valor F 



Regresión 


3 




154.92 


51.640 




270.37 


x, 




1 


107.72 


107.72 




563.98 


x 2 | *, 




1 


36.66 


36.66 




191.94 


X, \ X,, x 2 




1 


Í0.54 


10.54 




55.18 


Error 


16 




3.06 


0.191 






Total 


19 




157.98 


fo.95, 3. 16 = 


3.24; A». 


1. .6 = 4.49 



(véase la Fig. 14.5), se observa una tendencia lineal ascendente. Por lo tanto, se inclu- 
ye el efecto lineal de x 2 en el modelo de regresión y se ajusta 

Y = & + jS.jr, + p 2 x 2 + e. 

En la tabla 14.15 se muestran los nuevos resultados. Dado que ahora se estiman 
con mejor precisión el término constante, el coeficiente de x l y el valor de R 2 ha 
aumentado en forma apreciable, la inclusión de x 2 da como resultado una mejor 
ecuación de predicción. 



14.7 Regresión polinomial 

En la sección 14.2 se mencionó que el modelo polinomial dado por (14.3), o alguno 
que contenga términos de interacción como (14.4), es un caso especial del modelo li- 
neal general. De hecho, en el ejemplo 14.3 se mostró cómo el efecto cuadrático de 
una variable de predicción puede mejorar la capacidad predictiva de la ecuación 
de regresión. En esta sección se ahondará más sobre este tipo de modelos. 

Si se ha identificado sólo una variable de predicción x y la gráfica de las respues- 
tas observadas contra los valores de x revela una curvatura, entonces debe usarse un 
polinomio en x, de cierto grado, para aproximar la verdadera curva de regresión. 
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FIGURA 14.3 Gráficas de los residuos estandarizados para el ejemplo 14.3 
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FIGURA 14.4 Gráficas de los residuos estandarizados para la ecuación de regresión revisada 
en el ejemplo 14.3 
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; TABLA 14.14 Datos aumentados para el ejemplo de los 
salarios iniciales 



18,5 
20.0 
21.1 
22.4 
21.2 
15.0 
18.0 
1S.8 
15.7 
14.4 
15.5 
17.2 
19.0 
17.2 
16.8 
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FIGURA 14.5 Residuos estandarizados contra la edad para el ejemplo 14.4 
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TABLA 14.15 Análisis de regresión para el ejemplo 14.4 



Variable 


Coeficiente.— ..-"., ~ 
,v de regresión estimado 


Desviación - 

estándar estimada 


Valor t 


Constante 

JC, 

x 2 


- 16.880 
8.740 
0.338 


5.470 
1.220 
0.137 


-3.05 
7.16 

2.47 




R 2 = 0.813 

ANOVA 


'0.975. 12 = 2.179 




Fuente 


gl se 


CM 


Valor F 



Regresión 


2 


66.10 


33.05 




26.23 


x, 


1 


58.40 


58.40 




46.35 


x 2 1 X, 


1 


7.70 


7.70 




6.11 


Error 


12 


15.17 


1.26 






Total 


14 


81.27 


/0.95, 2. a - 


3-89; /o 95, 


. ,2 = 4.75 






II! 



Por ejemplo, un modelo cúbico en x está dado por 

Y¡ = j3 + fa + pttxl + /8„i*? + e„ 

donde /3| recibe el nombre de coeficiente lineal, /3 M es el coeficiente cuadrático y 
/3in es el coeficiente cúbico. Para mantener la costumbre se ha alterado en forma li- 
gera la notación para estos coeficientes de regresión para reflejar el patrón de la co- 
rrespondiente potencia de x. 

Como se mencionó con anterioridad, lo que se busca con un polinomio es el gra- 
do que mejor ajuste los datos dados. De acuerdo con lo anterior, el interés recae en 
probar hipótesis, como por ejemplo, H : j3 M = o //„: /3 m = 0. Mediante el 
empleo de este enfoque se tiene la capacidad para determinar el polinomio más apro- 
piado para estimar la respuesta promedio. Sin embargo, se advierte al lector que lo 
que se busca y se prefiere en forma general es un polinomio de un orden relativamen- 
te bajo. Se deberá evitar el empleo de potencias muy grandes de la variable de pre- 
dicción, debido a que lo que ocurre la mayor parte de las veces es un ajuste que expli- 
ca incluso las variaciones aleatorias que se encuentran en los datos; en otras 
palabras, siempre se puede encontrar un modelo polinomial de un grado, lo suficien- 
temente alto para ajustar los datos de manera perfecta, ya que un polinomio de gra- 
do n - 1 pasará a través de todos los n valores de la respuesta. 

Muchas veces un modelo completo de segundo orden que contiene términos li- 
neales, cuadráticos y de interacción, proporciona una aproximación funcional exce- 
lente en comparación con una función de respuesta desconocida y, en forma gene- 
ral, compleja. Por ejemplo, un modelo de segundo orden en dos variables es 

Y¡ = fio + /8.JC,-, + p 2 x i2 + j8„jc?, + /8z2.r?2 + PnX n x i2 + e¡. 
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donde /3| y /3 2 son los coeficientes lineales, /?,, y /3¿ son los coeficientes cuadfáti- 
cos y /3|2 es el coeficiente de interacción. Para este modelo, la matriz X y el vector de 
parámetros fi que figuran en la ecuación matricial "' °-" 



son 







Y = XP + e 






ri jc„ 


*I2 


x \l x \2 x \\ x \2~ 




rft 


1 x 2l 


x 22 


x l\ - c 22 x 2] x 22 


P = 


)8, 


-1 x n . 


x n2 


x n\ x n2 x n\ x n2- 




-/3r 



Con los dos siguientes ejemplos se ilustrarán tanto un modelo polinómico en u"a 
variable, así como un modelo completo de segundo orden. 

Ejemplo 14.5 La demanda de cierto producto cambió debido a una variación rápi- 
da de su precio por unidad. Supóngase que la demanda Y del producto se observa en 
una región geográfica en particular sobre un intervalo bastante amplio de precios x. 
Dados los datos que se encuentran en la tabla 14. 16, determínese el grado de un poli- 
nomio que mejor ajuste estos datos. 

Dado que sólo se tiene una variable de predicción, lo primero que se tiene que 
hacer es una gráfica de la demanda contra el precio por unidad. La figura 14.6 revela 
una curvatura, lo cual indica que debe intentarse el ajuste con un modelo cuadrático. 

Para ilustrar cómo se detecta la curvatura, supóngase que se propone un modelo 
lineal sencillo. En la figura 14.7 se muestra un listado de computadora generado por 
Minitab y los residuos estandarizados resultantes contra el precio en la figura 14.8. 
La necesidad de incluir un efecto cuadrático en x es evidente. 



TABLA 14.16 Datos de la muestra para el ejemplo 14.5 



Y unidades 

360 
305 
230 
242 
180 
172 
121 

83 
122 

91 
105 



i dólares 

8.8 
9.7 
9.9 
10.3 
11.0 
12.5 
13.2 
14.8 
15.8 
17.4 
18.2 
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FIGURA 14.6 Gráfica de la demanda contra el precio por unidad para el ejemplo 14.5 



LA ECUACIÓN DE REGRESIÓN ES 








Y = 497. - 24.4 XI 












DEV. EST. 


COEFICTENTE-T 


COLUMNA 


COEFICIENTE 


DEL COEF. 


= COEF/D.E. 


— 


497 . 15 


60.85 


8.17 


XI C2 


-24.419 


4.594 


-5.32 



LA DEV. EST. DE Y CON RESPECTO A LA RECTA DE REGRESIÓN ES 

S = 47.53 

CON ( 11-2)= 9 GRADOS DE LIBERTAD 

R-CUADRADA = 75 . 8 POR CIENTO 



ANÁLISIS DE VARIANZA 








DEBIDO A 


GL 


SC 


CM 


= SC/GL 


REGRESIÓN 


1 


63815 




63815 


RESIDUO 


9 


20330 




2259 


TOTAL 


10 


84145 







FIGURA 14.7 Listado de computadora para el ejemplo 14.5 
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FIGURA 14.8 Residuos estandarizados contra el precio por unidad para el modelo lineal del 
ejemplo 14.5 



El listado de salida para un modelo cuadrático se muestra en la figura 14.9. 
Como se esperaba, existe una considerable mejoría en la predicción proporcionada 
por la ecuación de regresión estimada, que la que se tenía con un modelo lineal 
simple. Nótese que Minitab también proporciona la "SC tipo /", es decir, a través 
de las entradas identificadas por "C2" y "C3" se tiene que SCR(;c) = 63 814.5 y 
SCR(.v 2 | x) = 14 961.4, respectivamente. 

Aunque no se proporciona una gráfica de los residuos estandarizados contra el 
precio para el modelo cuadrático, no mostrará ningún patrón evidente; además, no se 
obtiene ninguna mejoría apreciable si se añaden al modelo términos de orden supe- 
rior. Una ecuación de regresión estimada de orden cuadrático es lo más adecuado 
para predecir la demanda de este producto como una función del precio por unidad. 

Ejemplo 14.6 En el ejemplo 14.2 se consideró la regresión lineal de la temperatura 
aparente y sobre la temperatura del aire*, y la humanidad relativa x 2 para un inter- 
valo limitado de x i y x 2 . Para el conjunto aumentado de datos dado en la tabla 14.17 
se desea ajustar y analizar una ecuación de regresión completa de segundo orden. 
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LA ECUACIÓN DE REGRESIÓN ES 

Y =1330. - 155. XI + 4.87X2 









DEV. EST. 


COCIENTE-T 




COLUMNA 


COEFICIENTE 


DEL COEF. 


= COEF/D.E 




~ "™ ( 


1330 . 4 


179.6 


7.41 


XI 


C2 


-155.47 


27.87 


-5.58 


X2 


C3 


4.866 


1.031 


4.72 



LA DEV. EST. DE Y CON RESPECTO A LA RECTA DE REGRESIÓN ES 

S = 25.91 

CON ( 11-3)= 8 GRADOS DE LIBERTAD 

R-CUADRADA = 93 . 6 POR CIENTO 



ANÁLISIS DE VARIANZA 



DEBIDO A 
REGRESIÓN 
RESIDUO 
TOTAL 



GL 
2 
8 

10 



SC 

78775 . 8 

5368.8 

84144.7 



CM = SC/GL 

39387.9 

671.1 



ANÁLISIS DE VARIANZA ADICIONAL 

SC EXPLICADA POR CADA VARIABLE QUE ENTRE EN EL ORDEN DADO 



DEBIDO A 
, REGRESIÓN 
C2 
C3 



GL 
2 

1 
1 



SC 
78775 . 8 
63814 . 5 
14961.4 



FIGURA 14.9 Listado revisado para el ejemplo 14.5 



TABLA 14.17 


Datos de la muestra para el 


ejemplo 14.6 








Y* 1 

■*2 \ 


70° 


75 


80 


85 


90 


95 


0% 


64 


69 


73 


78 


83 


87 


10 


65 


70 


75 


80 


85 


90 


20 


66 


72 


77 


82 


87 


93 


30 


67 


73 


78 


84 


90 


96 


40 


68 


74 


79 


86 


93 


101 


50 


69 


75 


81 


88 


96 


107 


60 


70 


76 


82 


90 


100 


114 


70 


70 


77 


85 


93 


106 


124 


80 


71 


78 


86 


97 


113 


136 



T 
f 
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Con base en la experiencia cotidiana de Cualquier persona' con respectó áTcIima, 
debe ser evidente que la temperatura 'del aire; y la humedad relativa: tienen una inte- 
racción con la temperatura aparenté! Por ejemplo; el calor que se siente 1 cuando la 
temperatura del airees de 90° f\& humedad relativa es del 10%, es muyldifererite a 
la que se percibe cuando la humedad relativa es del 70W. Los resultados" que se 
muestran en la tabla 14.18 son los que se obtienen cuando se supone un modelo com- 
pleto de segundo orden. ,v " \ : :■'-> .: ' -:a; fiL ,, , 

El efecto de cada término en el modelo sobre la temperatura aparente es estadística- 
mente discernióle; los coeficientes de regresión se encuentran estimados con una exacti- 
tud razonablemente buena y el valor de R 2 es muy alto. De esta forma, la ecuación 
de regresión estimada completa de segundo orden es adecuada para la predicción. 



14.8 Mínimos cuadrados con factores de peso 

Una suposición clave en la estimación por mínimos cuadrados es que la varianza de 
cada error aleatorio es la misma. De la sección 14.6 recuérdese que si los residuos es- 



TABLA 14.18 Análisis de regresión para el ejemplo 14.6 

Regresión de y sobre x¡, x 2 , x], x\, y x x x 2 





Coeficiente 




Desviación 




Variable de 


regresión estimado 


estándar estimada 


Valor t 


Constante 


175.3300 




36.11000 


4.86 


X\ 


-3.1689 




0.87580 


-3.62 


-*2 


-1.4351 




0.13210 


- 10.87 


7 


0.0236 




0.00530 


4.46 


*2 


0.0017 




0.00056 


3.07 


X t X 2 


0.0188 




0.00150 


12.56 


R 1 


= 0.977 


ANOVA 


'0.975. 48 = 2.01 




Fuente 


gl 


SC 


CM 


Valor F 


Regresión 


5 


11,966.71 


2393.34 


407.20 


Efecto lineal de x t 




8536.13 


8536.13 


1452.32 


Efecto lineal de .v. 




2330.71 


2330.71 


396.54 


X] | X,, X 2 




116.68 


1 16.68 


19.85 


xj | x¡, x 2 , x] 




55.41 


55.41 


9.43 


Interacción de x¡ , x z 




927.78 


927.78 


157.85 


Error 


48 


282.12 


5.88 




Total 


53 


12,248.83 


fovy 5. 4« = 2.42; /0.95. 


,.4, = 4.04 
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tandarizados tienden a disminuir o a aumentar conforme se incrementan los valores 
estimados de la respuesta, la varíanza del error no puede considerarse como constante. 
El remedio apropiado para esta situación es aplicar- mínimos cuadrados con factores 
de peso, en los cuales las estimaciones para los coeficientes de regresión se obtienen 
mediante la minimización de la suma con pesos de los cuadrados de los errores. Si se 
empleara la estimación por mínimos cuadrados ordinarios en una situación para la 
cual la varianza del error no es constante, los coeficientes de regresión no serían esti- 
mados con la misma precisión. 

Antes de resolver algunos ejemplos, se examinarán en forma breve los aspectos 
teóricos clave de la estimación por mínimos cuadrados con factores de peso. Al igual 
que en los mínimos cuadrados ordinarios se supone que para el modelo lineal gene- 
ral 

Y = Xfi+ e, 

e es un vector de errores aleatorios riu observable, tal que 

E(e) = 0, 
y la matriz de varianza-covarianza está dada por 

E(ee') = Q. 

La matriz Q es de tal naturaleza que el elemento que se encuentra sobre la diagonal 
q¡¡ es la varianza de e¡, y q¡j es la covarianza entre e, y e, para toda /' f j. Q debe 
ser no singular; de hecho, Q " ' recibe el nombre de matriz de ponderación y la debe 
especificar el investigador, es decir, los pesos se asignan a cada observación de la res- 
puesta de acuerdo con alguna información respecto a la correspondiente varianza 
del error. Existen algunos procedimientos disponibles para los usuarios para deter- 
minar los pesos; lo anterior se ilustrará más adelante. 

Las estimaciones de los coeficientes de regresión se obtienen mediante la minimi- 
zación de la suma con pesos de los cuadrados de los errores dada por 

e'CT'e = (Y - X/?)'<r'(Y - X/J). 

Puede demostrarse que las ecuaciones normales en forma matricial son 

X'Q 'XB = X'Q 'Y. 

Si existe la matriz inversa (X'Q~ 'X)~ ', los estimadores por mínimos cuadrados con 
factores de peso se obtienen mediante 

B= (X'Q X) X'Q Y. (14.31) 

Es importante notar que los mínimos cuadrados ordinarios son un caso especial de 
los mínimos cuadrados con factores de peso, es decir, siQ = cr 2 I, entonces es relati- 
vamente fácil demostrar que (14.31) se reduce a la expresión usual 

B = (X'Xr'X'Y. 
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La definición de la matriz Q implica una estructura de covarianza entre los erro- 
res aleatorios. En la práctica, esta estructura resulta difícil de identificar. La aplica- 
ción más sencilla de la estimación por mínimos cuadrados con factores de peso es la 
de suponer que Q es una matriz diagonal de la forma 



Q = 



'<A 



A 



o* 



donde o-, es la varianza de é¡. Entonces 



Q ' = 



l/oí 



1/oi 



U<rl 



Por lo tanto, los errores aleatorios se suponen independientes, pero algunas de sus 
varianzas (si no es que todas) pueden ser diferentes. 

A continuación se examinarán algunas situaciones para las cuales es probable 
que se viole la suposición de que la varianza del error es constante si se emplean mí- 
nimos cuadrados ordinarios. Una práctica muy frecuente en la adquisición de 
datos experimentales es tomar varias mediciones de la respuesta para cada uno de los 
puntos de observación y después calcular el promedio de las mediciones para cada 
uno. La principal razón para llevar a cabo este procedimiento es estabilizar la varia- 
bilidad de las observaciones individuales. Bajo este procedimiento la respuesta se 
convierte en un promedio. Dado que la desviación estándar de un promedio es pro- 
porcional a la raíz cuadrada del tamaño de la muestra sobre la cual se basa este pro- 
medio, la variación de Y¡ ,, y de esta forma de e¡, es o*/n¡, donde a 1 es la varianza 
común del error y n¡ es el tamaño de la muestra en relación con Y¡. Esto conduce a 
un procedimiento de estimación por mínimos cuadrados con factores de peso para el 
cual la inversa de la matriz Q está dada por 



<X 



Los pesos son los tamaños individuales de cada muestra n,, n 2 , ..., n„ para los n 
puntos de observación. La lógica que se encuentra detrás de lo anterior es muy senci- 
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lia; los promedio basados en un gran número de observaciones deben tener un ma- 
yor peso en la determinación de las estimaciones que aquellas que se basan en pocas 
observaciones. - >:-;, : ;^^v-^/.v ,.: ■'■> »A» •- \m;w.-si -*?c >• '■*;%' ■ r ¡to 

Ejemplo 14. 7 Una compañía implanta un programa de inspección en el cual las uni- 
dades de cierto producto se revisan en forma visual en la linea de producción, con el 
objetivo de detectar las que se encuentran defectuosas. El gerente sabe que la velo- 
cidad de la linea afectará el número de unidades defectuosas encontradas. Se se- 
lecciona un lote de unidades de un tamaño suficiente y se envía a un departamento 
que se encargará de revisar el 100% de los mismos minuciosamente con el propósito 
de encontrar el número total de unidades defectuosas. Entonces el lote se coloca 
sobre la linea un número variable de veces para cada una de las ocho velocidades que 
posee la misma. Para cada velocidad de la linea x se calcula el número promedio Y 
de unidades defectuosas que no se descubrieron. Los datos que aparecen en la tabla 
14.19 son los resultados de este experimento y la última columna representa los ta- 
maños individuales de cada muestra. Obténganse y compárense las regiesiones 
simples de Y sobre x, con base en mínimos cuadrados ordinarios y con factores de 
peso. 

Para mínimos cuadrados ordinarios se descartan los tamaños variables de cada 
muestra y se procede de la manera usual. Los resultados se muestran en la tabla 
14.20. Para mínimos cuadrados con factores de peso se ilustrará el cálculo de las es- 
timaciones. Dado que los pesos son los tamaños de cada una de las muestras, 



Q- = 



14 



TABLA 14.19 Datos de la muestra para el ejemplo 14.7 









Y 


x(pie/mm) 


n 


0.50 


10 


14 


4.67 


20 


3 


6.25 


30 


25 


10.00 


40 


2 


13.50 


50 


3 


13.70 


60 


22 


17.50 


70 


5 


23.00 


80 


2 
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TABLA 14.20 Estimaciones por mínimos cuadrados ordinarios y tabla ANOVA para el 
ejemplo 14.7 > \ ; 



Variable 


Coeficiente 
dé regresión estimado 


Desviación 
estándar estimada 


Valor t 


Constante 

X 


-2.1190 
0.2946 


\ 


0.9490 
0.0188 


-2.23 
15.68 


■ 


r 1 = 0.976 


ANOVA 


'0*75.6 = 2.447 




Fuente 


gl 


SC 


CM 


Valor F 



Regresión 
Error 

Total 



\ 



364.62 
8.89 



373.51 



364.62 
1.48 



J0.9Í. 



= 5.99 



246.36 



Además, 



X'Q 'X 



1 1 
.10 20 



1 
80. 



76 3010 
3010 152 300. 



14 



10 
20 



(X'Q-'X) 



0.06056388 -0.00119696 
-0.00119696 0.00003022. 



80 



Entonces, mediante el empleo de (14.31), las estimaciones de mínimos cuadrados 
con factores de peso son 






= cr 



0.06056388 -0.00119696 
0.00119696 0.00003022 



1 I ••• 1 
10 20 — 80. 
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o 



0.5 
4.67 



23.0 



^r -2.0540] 
~L 0.2753J 



Los resultados del análisis de regresión con factores de peso se dan en la tabla 14.21 . 

Una comparación de los resultados basados en mínimos cuadrados con factores 
de peso y ordinarios muestran una ligera mejoría en la precisión de las estimacio- 
nes de mínimos cuadrados con factores de peso, así como un pequeño aumento en el va- 
ior de r 2 . Debe notarse que si los tamaños de cada muestra individual no difieren 
mucho entre sí, es muy probable que los resultados que se obtengan mediante el 
empleo de los dos métodos sean muy similares. 

En el ejemplo 14.7 se supuso de antemano una varianza del error no constante, 
debido a que el registro de las observaciones de la respuesta son promedios basados 
en tamaños variables de las muestras. Sin embargo, la mayoría de las veces la falta 
de una varianza constante para el error debe determinarse en forma empírica. Ya se 
ha indicado que una gráfica de los residuos estandarizados contra las respuestas esti- 
madas resulta ser una ayuda considerable en la detección de la heterocedasticidad, 
pero para aquellos problemas para los cuales se tienen disponibles observaciones re- 
petidas de la respuesta para el mismo punto de observación, es preferible registrar las 
observaciones reales más que sus promedios y emplearlas para detectar una varianza 



TABLA 14.21 Estimaciones por mínimos cuadrados con factores de peso y tabla ANOVA 
para el ejemplo 14.7 



Variable 


Coeficiente 
de regresión estimado 




Desviación 
estándar estimada Valor t 


Constante 

X 


-2.0540 

0.2753 




0.6990 -2.94 
0.0156 17.63 




r 1 = 0.981 


ANOVA 


/o.,,,., = 2.447 


Fuente 


gl 


SC 


CM Valor F 


Regresión 
Error 


1 
6 


2508.66 
48.43 


2508.66 310.86 
8.07 


Total 


7 


2557.09* 


/o.95. 1.6 = 5.99 



* Las sumas de los cuadrados son diferentes de las anteriores debido a que ahora son funciones de los pe- 
sos impuestos. 
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no constante del error. Para estos tipos de problemas la gráfica de las observaciones 
contra los valores de la variable de predicción revelará una varianza no constante, si 
es que esta existe. El siguiente ejemplo ilustra este problema. 

Ejemplo 14.8 Recientemente, la variabilidad del ozono en la estratosfera ha recibi- 
do gran atención, especialmente en el impacto que el hombre tiene sobre el clima. El 
ozono es una forma de oxigeno que se encuentra en diversas cantidades en la estra- 
tosfera y constituye un componente muy importante de la atmósfera, ya que tiene 
la propiedad de bloquear la radiación ultravioleta que provienen del sol. Los datos 
que se encuentran en la tabla 14.22 muestran la cantidad de ozono registrada Y y su 
presión parcial x para cada capa de altitud, donde cada capa tiene aproximadamente 
un kilómetro de altura. Por conveniencia, las capas se han escalado a un intervalo de 
-7 a +7. Determínese si la varianza del error puede considerarse como constante. 



TABLA 14.22 Datos de la muestra para el ejemplo 14.8 

Capa Ozono Capa Ozono 

-7.00 53.8 -1.00 102.8 

-7.00 53.3 -1.00 96.9 

-7.00 54.8 -1.00 98.2 

-7.00 54.6 0.0 98.9 

-7.00 53.7 0.0 96.1 

-7.00 55.2 0.0 99.6 

-7.00 55.7 0.0 91.4 

-7.00 54.1 1.00 101.1 

-6.00 63.8 1.00 94.6 

-6.00 64.2 1.00 95.9 

-6.00 66.9 2.00 92.3 

-6.00 67.2 2.00 96.6 

-6.00 65.4 2.00 98.5 

-6.00 67.3 3.00 93.6 

-5.00 71.8 3.00 86.2 

-5.00 73.2 3.00 87.9 

-5.00 75.6 3.00 89.5 

-5.00 76.2 4.00 74.8 

-5.00 72.7 4.00 82.3 

-4.00 79.4 4.00 76.9 

-4.00 81.1 4.00 81.2 

-4.00 85.2 5.00 73.6 

-4.00 83.0 5.00 65.4 

-4.00 84.1 5.00 67.1 

-4.00 82.8 6.00 60.2 

-3.00 90.3 6.00 54.9 

-3.00 84.2 6.00 50.8 

-3.00 88.3 7.00 44.7 

-3.00 86.0 7.00 38.5 

-2.00 93.2 

-2.00 97.4 

-2.00 98.3 
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FIGURA 14.10 Gráfica del ozono contra la altitud de la capa para el ejemplo 14.8 

Una gráfica de la cantidad de ozono contra la capa, figura 14. 10, revela que la 
varianza del error no puede considerarse como constante debido a que la variabili- 
dad en la cantidad de ozono aumenta conforme la capa crece. La figura 14.10 tam- 
bién sugiere que el modelo apropiado por utilizar es una ecuación cuadrática. 

En una situación como ésta, en la que existen repeticiones para varios puntos de 
observación, los pesos se determinan mediante el cálculo de la varianza de las medi- 
ciones de la respuesta para cada punto de observación. De esta forma, cada peso es 
el recíproco de la correspondiente varianza. Por ejemplo, si v denota la /-ésima me- 
dición de ozono en la y-ésima capa, la varianza de la muestra de la y'-ésima capa es 

y el correspondiente peso es w, = l/s 2 ; . Como ilustración, considérense las observa- 
ciones para x = 0. Éstas son 98.9, 99.6 y 91.4. Entonces, n¡ = 4, y.j = 96.5, sj = 
13.8467, y Wj = 1/13.8467 = 0.0722. Al seguir este procedimiento, los pesos 
correspondientes para cada capa son los que se muestran en la tabla 14.23. 
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TABLA 14.23 Pesos para el ejemplo 14:8 



Capa 



Peso 



Capa 



Peso 



-7 
-6 



-3 

-2 

-1 





1.4956 
0.4119 
0.2755 
0.2304 
0.1411 
0.1349 
0.1041 
0.0722 



1 
2 
3 
4 
5 
6 
7 



0.0845 
0.0991 
0.0997 
0.0797 
0.0534 
'0.O45O 
0.0520 



Mediante el uso de estos pesos y al ajustar un modelo cuadrático, se obtienen, 
para el czono, los resultados que se encuentran en la tabla 14.24. Es evidente que 
una ecuación cuadrática de regresión basada en mínimos cuadrados con factores de 
peso es muy adecuada para describir la variabilidad de la cantidad promedio de ozo- 
no como una función de la altitud. 

La mayoría de las veces no existen observaciones repetidas, pero los datos se re- 
caban en agrupaciones naturales las que pueden, apriori, sugerir varianzas diferen- 
tes para el error en cada grupo. Lo que en general se hace es suponer que la varianza 
dely'-esimo grupo es cja 2 , donde c¡ es única para ely-ésimo grupo, pero <r 2 es común 
para todos los grupos. En general, los valores de las c. no son conocidos, pero pueden 
estimarse primero al determinar la varianza residual' para cada grupo, sj basada en 



TABLA 14.24 Estimaciones por mínimos cuadrados con factores de peso y tabla ANOVA 
para el ejemplo 14.8 



Variable 


Coeficiente 
de regresión estimado 


Desviación 
estándar estimada 






Valor t 


Constante 

X 

x 1 


96.7590 
-0.5585 
-0.9495 




0.6367 
0.1266 
0.0238 






151.98 

-4.41 

-39.83 


R 2 


= 0.9817 


ANOVA 


'o.975, 58 = 


2.00 




Fuente 


gl 


SC 


CM 






Valor F 


Regresión 2 
Efecto lineal 1 
Efecto cuadrático 1 

Error 58 


4082.33 
2001.11 
2081.22 
76.07 


2041.17 
2001.11 
2081.22 
1.31 






1556.30 
1525.78 
1586.82 


Total 


60 


4158.40 


J0.9S. 2. 58 = 3 


15 


/095 


1.58 = 4.00 
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los residuos de éstos. Los residuos se obtienen mediante el ajuste de un modelo lineal 
general empleando mínimos cuadrados ordinarios. Entonces, una estimación de c, es 
Sj/s, donde s es la desviación estándar residual global basada en los mínimos cuadra- 
dos ordinarios y í,es la desviación estándar residual para ely-ésimo grupo. Entonces 
el peso para el y'-ésimo grupo es Wj = í/cj = s 2 /sj. 



14.9 Variables indicadoras 

En casi todos los problemas que se han considerado hasta este momento, las va- 
riables de predicción han sido cuantitativas en el sentido en que toman valores de 
una escala numérica bien definida. Sin embargo, para muchas variables como la lo- 
caüzación geográfica, el estado civil, las poblaciones urbanas o rurales o alguna otra, 
no es evidente tener una escala bien definida. Dado que estas variables cualitativas 
son factores importantes en muchas situaciones, a continuación se examinará una 
manera de cuantificar los niveles de una variable de predicción cualitativa para su 
empleo en el análisis de regresión. Se considerarán las que comúnmente se conocen 
como variables indicadores o mudas. A cada una de estas variables se le asignan los 
valores y 1 . 

Como ilustración, considérese la tasa de crímenes para dos estados adyacentes, 
para los que los datos figuran en el ejercicio 14.16 que se encuentra al final de este 
capituló. En particular, supóngase que se desea hacer una regresión de la tasa de 
crímenes sobre el porcentaje de la población urbana en un estado para aquellos que 
se encuentren sólo en las regiones 1 y 5. El modelo de regresión será una función de 
la variable cuantitativa x¡ (porcentaje de población urbana) y una variable de predic- 
ción cualitativa que representa las dos regiones de interés. 

Dado que sólo se tienen dos regiones, es conveniente definir dos variables indica- 
doras x 2 y x 3 tales, que 



x 2 



X) = 



1 si un estado es encuentra en la región 1 , 

de otro modo, 

1 si un estado se encuentra en la región 5, 
de otro modo. 



Entonces, para obtener una sola ecuación de regresión para ambas regiones, se debe- 
rá ajustar el modelo 

Y = & + 01*1 + 02*2 + 03*3 + e. 

Pero si se hace esto, entonces la matriz X'X no tendría inversa. Una manera fácil de 
salir de este problema es eliminar una de las dos variables indicadoras y emplear so- 
lamente una, por ejemplo x 2 , en donde al igual que antes, 



10 d« 



un estado se encuentra en la región 1, 
de otro modo, 
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En otra palabras, para cualquier estado que se encuentre en la región 1 (x' 2 = l) o si 
se encuentra en la región 5 (x 2 = 0% En general, si una variable cualitativa tiene m 
niveles, puede representarse por medio de m - 1 variables indicadoras, asignando a 
cada una los valores dé .0 vi. 

Considérese de nuevo el problema de la tasa de crímenes para las regiones 1 y 5. 
Existen varias maneras de abordar el desarrollo de un modelo de regresión. Se puede 
reuniría información proveniente de ambas regiones y entonces ajustar el modelo li- 
neal simple 

Y = & + /3,-r, + e, 

ignorando las diferencias regionales pueden obtenerse ecuaciones de regresión separa- 
das para las regiones, cada una con diferentes estimaciones para los coeficientes de re- 
gresión. La elección entre estas dos opciones debe hacerse con mucho cuidado. En rea- 
lidad debe decidirse si cada una de estas dos regiones es distinta con respecto a la tasa 
de crímenes, o si existe alguna relación en común. Si lo primero es cieno y se ajusta el 
modelo dado con anterioridad, entonces es probable que la tasa de crímenes en una re- 
gión se encuentre sobreestimada mientras que para la otra ocurre lo contrario. Si exis- 
te una relación en común, entonces no es necesario tener dos ecuaciones de regresión 
separadas. 

Al comparar los resultados que se obtienen con base en las ecuaciones de regre- 
sión separadas y la única para las regiones 1 y 5 mediante el empleo del porcentaje de 
población urbana como la única variable de predicción, se obtienen los datos que se 
encuentran en la tabla 14.25. 

La comparación revela que las estimaciones para cada una de las pendientes son, 
en esencia, las mismas, pero las estimaciones de las intersecciones son significativa- 
mente diferentes. Nótese también que la ecuación de regresión única exhibe las pro- 
piedades menos deseables. De hecho, con esta última ecuación las tasas para los es- 
tados que se encuentran en las región 1 se sobreestiman, mientras que para los esta- 
dos que se encuentran en la región 5 se subestiman con una sola excepción. Por lo 
tanto, en forma aparente existen diferencias regionales para la respuesta y no deben 
ignorarse. 

Para incorporar las diferencias regionales dentro del modelo, sólo se utilizará la 
variable indicadora x 2 definida con anterioridad; el modelo se convierte en 

Y = 0„ + 0,jc, + 2 x 2 + e. (14.32) 

Para interpretar los coeficientes de regresión, considérense los estados de la región 5. 
Dado que para éstos x 2 = 0, se supone una curva de regresión dada por 

£(r) = A, + £,*,, 

que es la ecuación de una línea recta con pendiente /3, e intersección j3 . Para los esta- 
dos que se encuentran en la región 1 , x 2 = 1 , y la respuesta medía toma la forma 

£(10 = /í + /3,-r, + 2 

= (A> + 02) + 01*,, 
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TABLA 14.25 Modelos de regresión combinado y separado para el ejemplo de la tasa de 

crímenes .... ■, .. . '. .. 

Modelo de regresión estimado 



Variable 


Coeficiente , * 
de regresión estimado 


'•■** "■.="■'■.,,:•. Desviación 

estándar estimada 


Valor i 


Constante 


7.0350 
-0.0094 


4.2300 
0.0673 


1.66 
-0.14 


n = 12 


r 2 = 0.002 ío.975. 10 = 2.228 
Modelo de regresión para la región 1 




Variable 


Coeficiente 
de regresión estimado 


Desviación 
estándar estimada 


Valor t 


Constante 


0.4170 
0.0404 


0.8020 
0.0118 


0.52 
3.41 


n = 6 


r 2 = 0.745 

Modelo de regresión 


'0.975, 4 = 2.776 
para la región 5 




Variable 


Coeficiente 
de regresión estimado 


Desviación 
estándar estimada 


Valor t 


Constante 
x, 


7.4400 
0.0439 


3.9500 
0.0686 


1.88 
0.64 


n = 6 


r 2 = 0.093 


*0975,4 = 2.776 





la que también es la ecuación de una línea recta con la misma pendiente, (3 U pero 
con una intersección diferente /3 + j3 2 . Entonces el modelo dado por (14.32) pro- 
porciona la respuesta promedio como una función lineal de *, con la misma pen- 
diente para ambas regiones, pero con diferentes intersecciones. El parámetro /3 2 
representa el efecto diferencial que existe entre las intersecciones de las dos regiones. 
Para ajustar el modelo (14.32) el vector Y y la matriz X son 



Y = 



4.2 




1 


77.6 


1 


2.4 




1 


50.8 


1 


3.1 




1 


84.6 


1 


3.2 




1 


56.4 


1 


3.9 




1 


87.1 


1 


1.4 


X = 


1 


32.2 


1 


10.2 




1 


80.5 





11.7 




1 


60.3 





10.6 




1 


45.0 





11.9 




1 


47.6 





9.0 




1 


63.1 





6.0 




1 


39.0 






Los resultados de la regresión se muestran en la tabla 1 4.26 
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TABLA 14.26 Análisis de regresión para el ejemplo de la tasa de crímenes ' 



Variable 


Coeficiente 
de regresión estimado 


Desviación t S n :>. 
estándar estimada* : 


,'Jio Valor \f 


Constante 

x \ 
*2 


7.5800 
0.0416 

-7.2340 \ 


1.6400 
0.0269 
0.9520 


4.62 

1.54 

-7.60 


n = 12 


R 2 = 0.865 


'0.975, 9 = 2.262 





Con base en estos resultados, las diferencias regionales son estadísticamente sig- 
nificativas. De esta forma, la última ecuación de regresión es superior con respecto 
al modelo único en el cual no se consideraban las diferencias regionales. En particu- 
lar, las dos regiones tienen la misma estimación para la pendiente (O.O416), pero las 
intersecciones son iguales a 7.58 para la región 5 y 7.58 - 7.23 = 0.35 para la región 1 . 
En general puede suponerse que la pendiente es la misma y, por lo tanto, es mejor 
emplear un modelo con una variable indicadora que un modelo único. Ademas, 
también es mejor un modelo con una variable indicadora que emplear dos modelos 
de regresión separados debido a que para el primero se tiene un mayor número de 
grados de libertad disponible para el error que para el segundo. De acuerdo con lo 
anterior, /3 y /3 2 son las estimaciones con la mejor precisión como es el caso para este 
ejemplo. 

¿Qué ocurre si la pendiente no es la misma? Esta situación puede manejarse me- 
diante la introducción en el modelo de un término de interacción para la variable 
cuantitativa x x y para la variable indicadora x 2 . El modelo propuesto se convierte en 

Y = O + 0,jc, + 2 jc 2 + 12 jc,.t 2 + e. (14.33) 

Para los estados que se encuentran en la región 5, x 2 = 0. Entonces, x t x 2 = 0, y 
la respuesta promedio para esta región es 

£(10 = 00 + 0,*,. 

Para los estados que se encuentran en la región 1 , x 2 = 1 , y jc,jc 2 = x, , la respuesta 
media para esta región es 

E(Y) = 0o + 0,x, + 2 + l2 x, 

= (00+02) + (01 +0, 2 )*l- 

Nótese que el coeficiente de regresión de x 2 es el efecto diferencial que existe entre las 
intersecciones de las dos regiones y el coeficiente de regresión del producto cruzado 
X\X 2 es el efecto diferencial entre las pendientes de las dos regiones. Por lo tanto, su- 
poniendo que existe una interacción estadísticamente apreciable entre x, y x v pueden 
obtenerse las ecuaciones estimadas de regresión para cada región mediante el empleo 
del modelo dado por (14.33). 

Para finalizar, se examinará el problema en el cual una variable cualitativa tiene 
más de dos niveles. Este caso requiere del uso de más de una variable indicadora en 
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el modelo de regresión. Como ilustración, se continuará con el problema de la tasa 

de crímenes al llevar a cabo una comparación entre los estados de las regiones 1 , 5 y 

7. Dado que se han identificado tres niveles de una variable cualitativa, se definirán 56 

dos variables indicadoras de la siguiente manera: ' -i ' , \ 

, (l si un estado se encuentra en la región 1, 
x 2 = \ 

10 de otro modo, 

{1 si un estado se encuentra en la región 5, 
de otro modo. 

Este arreglo proporciona el mismo número de combinaciones posible de los valores 
de x 2 y x, de acuerdo con el número de niveles de la variable cualitativa. Estos son 
x 2 = 1 , xj - 0; jc 2 = 0, jc 3 = 1 ; y jc 2 = jc 3 = 0. Representan los estados en las 
regiones 1, 5 y 7 respectivamente. 

Si se supone que las pendientes son iguales para lus tres regiones, el modelo es 

Y = /3 + /V, + (3 2 x 2 + /3 3 jc 3 + e. 

Para los estados que se encuentran en la región 7, x 2 = y jc 3 = 0, de tal manera 
que la respuesta se reduce a 

E(Y) = p + p lXl , 

que es la ecuación de una línea recta con pendiente ft¡ e intersección /3o • Para los esta- 
dos que se encuentran en la región 5, x 2 = y x } = 1 . De acuerdo con lo anterior, 
la curva de regresión es 

E(Y) = /3 + /3,jc, + /3 3 

= (A, + ft) + 0,*, , 

donde /3 3 representa el cambio en la intersección de la región 5 con respecto al de la 
región 7. De manera similar, cuando jc, = 1 y jc 3 = 0, la respuesta media es 

E{Y) = /3 + /3,jc, + /3 2 
= (/3o + /3 2 ) + /W 

donde ahora /3 2 es el cambio en la intersección de la región 1 con respecto al de la re- 
gión 7. Se deduce que tanto /3 2 como /3 3 representan los efectos diferenciales para las 
intersecciones de las regiones 1 y 5, respectivamente, en relación con la intersección 
de la región 7. 

El caso para el cual no es posible suponer que las pendientes son iguales, en este 
momento debe ser ya evidente, es decir, si se asume un modelo de la forma 

Y = /3„ + /3,.v, + /3 2 .v 2 + /3 3 .v 3 + f3 n x,x 2 + /3 13 jc,jc 3 + e, (14.34) 

donde /3, 2 y /3| 3 son los coeficientes de regresión para las interacciones que 
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comprenden a la variable cuantitativa x, y a cada una de las dos variables indicado- 
ras x 2 y x Y 

Ejemplo 14.9 Se seleccionan al azar cinco casas recientemente vendidas para tres 
distintas zonas residenciales (A, B y Q en cierta ciudad, y el precio de venta Y se 
compara con el valor catastral de la propiedad x , determinado por la oficina estatal 
local correspondiente. Los datos se encuentran en la tabla 14.27 donde el precio de 
venta y el valor catastral de la propiedad se dan en miles de dólares. Mediante el 
empleo de variables indicadoras, ajústese una ecuación de regresión lineal y 
determínese si las pendientes para las tres zonas residenciales son las mismas. 
Dado que se tienen tres zonas residenciales, se definen dos variables indicadoras 



x 2 y x 3 tales, que 



*2 = 



*3 



1 si una casa se encuentra en la zona B, 

de otro modo, 

1 si una casa se encuentra en la zona C, 
de otro modo. 



Para el modelo (14.34) el vector Y y la matriz A" son iguales a 



Y = 



42.5 

36.8 

42.6 

41.2 

48.6 

75.2 

83.4 

83.3 

116.8 

114.3 

122.8 

125.6 

132.5 

127.4 

147.8 



X = 



1 33.1 














1 42.0 














1 47.8 














1 53.4 














1 59.6 














1 63.9 


1 





63.9 





1 68.4 


1 





68.4 





1 72.3 


1 





72.3 





1 77.8 


1 





77.8 





1 80.8 


1 





80.8 





1 96.5 





1 





96.5 


I 101.8 





1 





101.8 


1 106.2 





1 





106.2 


1 112.6 





1 





112.6 


1 120.5 





1 





120.5 



TABLA 14.27 Datos de la muestra para el ejemplo 14.9 





Zona 


A 




Zona 


B 


Zona C 


X 




Y 


X 




Y 


x Y 


33.1 




42.5 


63.9 




75.2 


96.5 122.8 


42.0 




36.8 


68.4 




83.4 


101.8 125.6 


47.8 




42.6 


72.3 




83.3 


106.2 132.5 


53.4 




41.2 


77.8 




116.8 


112.6 127.4 


59.6 




48.6 


80.8 




114.3 


120.5 147.8 
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El listado de computadora que produce Minitab se encuentra en la figura 14.11, 
donde C2-C6 se refieren a x t , x 2 , x y , x¡x 2 , y x { x¡ „ respectivamente. 
Nótese que la hipótesis nula 



//o:j8 12 = 



puede rechazarse, pero la hipótesis 

no; por lo tanto, existe una razón para creer que las pendientes para las zonas resi- 
denciales A y B no son las mismas. Del listado se determina que las ecuaciones esti- 



LA ECUACIÓN DE REGRESIÓN ES 

Y= 31.4 + 0.232X1 - 129. X2 

+ 1.89X3 +2.41X4+0.679X5 



ílf 









DEV. EST. 


COCTENTE-T 




COLUMNA 


COEFICIENTE 


DEL COEF. 


= COEF/D.E 




— 


31.37 


14.66 


2.14 


XI 


C2 


0.2325 


0.3050 


0.76 


X2 


C3 


-128.81 


36.29 


-3.55 


X3 


C4 


1.89 


38.82 


0.05 


X4 


C5 


2.4112 


0.5481 


4.40 


X5 


C6 


. 6786 


0.4518 


1.50 



LA DEV. EST. DE Y CON RESPECTO A LA RECTA DE REGRESIÓN ES 

S = 6.238 

CON ( 15 - 6) = 9 GRADOS DE LIBERTAD 

R-CUADRADA = 98 . 4 POR CIENTO 

ANÁLISIS DE VARIANZA ?E 



DEBIDO A 


GL 


SC 


CM = SC/GL 


REGRESIÓN N 


5 


21577.96 


4315.59 


RESIDUO 


9 


350.26 


38.92 


TOTAL 


14 


21928.22 





ANÁLISIS DE VARIANZA ADICIONAL 

SC EXPLICADA POR CADA VARIABLE QUE ENTRA EN EL ORDEN DADO 

DEBIDO A 
REGRESIÓN 
C2 
C3 
C4 
C5 
C6 



GL 


SC 


5 


21577.96 


1 


19892.61 


1 


698 . 16 


1 


232 . 89 


1 


666.52 


1 


87.79 



FIGURA 14.11 Listado de computadora para el ejemplo 14.9 
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madas de regresión para cada zona residencial son las siguientes: ^ ' 

Zona A: y = 31.37 + 0.2325*,; -'-> <■>' -■- 

Zona B: ? = -97.44 + 2.6437*,, 
(x 2 = 1, x 3 = 0) ^ 

ZonaC: y = 33.26 + 0.911 Ijc,. 
! (* 2 = 0, x 3 = 1) 
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Ejercicios 

14.1. De los siguientes modelos, ¿cuáles no son casos del modelo lineal general y por que? 

a) Y = & + 0,expO3 2 jr,) + /3 3 jc 2 + e 

b) Y = /3,jc, + (i 2 x 2 + fox] + p 4 x]x 2 + e 

c) Y = (i + j8,/jr, + foxf + e 

14.2. Una agencia de alquiler de automóviles obtiene la siguiente ecuación de regresión: 

y = 0.75 + 1.2x, + 0.15* 2 

para predecir el costo promedio anual y en miles de dólares como una función del nú- 
mero de automóviles alquilados x l y del número promedio de millas que cada automó- 
vil recorre x 2 en miles de millas. Expliqúese el significado de cada uno de los coeficien- 



tes estimados de la regresión. 



14.3. Supóngase que la ecuación estimada de regresión que describe una respuesta media co- 
mo una función de dos variables de predicción está dada por 

y = 15 + 6jfj — 2x 2 — 1. 5x1*2- 

a) ¿Cual es el efecto sobre la respuesta media por unidad de cambio en x¡ cuando x 2 = 
i 2? 

b) ¿Cuál es el efecto sobre la respuesta media por unidad de cambio en x 2 cuando x , = 
1? 
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14.4. Mediante el empleo de los datos de Prater, ajústense todos los modelos lineales que 
incluyan sólo a x , y a x y e ilústrese el principio de la suma de cuadrados extra mediante 
el cálculo de lo siguiente: 

á) Las tablas de análisis de varianza correspondientes. 

QSClKxylxJySClKxtlxy). 

c) Las pruebas i 7 parciales apropiadas. 

14.5. Una agencia desea estimar los gastos en alimentación de una familia con base en el 
ingreso y su tamaño. Los datos que se encuentran en la tabla 14.28 representan los gas- 
tos de alimentación por mes y en miles de dólares, contra el ingreso mensual x, y el ta- 
maño de la familia x para 15 familias que se seleccionaron al azar en cierta localidad 
geográfica. 

TABLA 14.28 Datos de la muestra 
para el ejercicio 14.5 



Y 


x, 


Xi 


0.43 


2.1 


3 


0.31 


1.1 


4 


0.32 


0.9 


5 


0.46 


1.6 


4 


1.25 


6.2 


4 


0.44 


2.3 


3 


0.52 


1.8 


6 


0.29 


1.0 


5 


1.29 


8.9 


3 


0.35 


2.4 


2 


0.35 


1.2 


4 


0.78 


4.7 


3 


0.43 


3.5 


2 


0.47 


2.9 


3 


0.38 


1.4 


4 



a) Ajústense todos los modelos lineales que abarcan a x y/o x 2 , e interprétense los 
coeficientes de regresión estimados. 

b) Pruébese la hipótesis nula H : /3, = /3 2 = 0. 

c) Calcúlese SCR (x 2 1 x t ) y SCR (x¡ | x 2 ) y llévense a cabo las pruebas F parciales 
apropiadas. 

d) Calcúlese e interprétese el coeficiente de correlación múltiple R\ 

e) Con base en los resultados anteriores, decídase cuál es la mejor ecuación para pre- 
decir el gasto de alimentación y empléese para estimar el gasto promedio mensual en 
alimentación para una familia de cuatro personas con un ingreso mensual de 
$2 500. Determínese un intervalo de confianza del 98% para esta cantidad. 

14.6. Con respecto al ejercicio 14.5 hágase lo siguiente: 

a) Para la regresión que comprende, tanto a x como a x , efectúense las pruebas indi- 
viduales / para los coeficientes de regresión /3, y /3 2 . Úsese a = 0.05. 

b) Determínense intervalos de confianza de 95% para /3, y ft y formúlense las conclu- 
siones apropiadas. 



hjerciaos aos 

14.7. Mediante el uso de los datos del ejercicio 14.5, construyase un modelo lineal general 
que abarque tanto a x , como a x 2 en forma matricial; identifiqúense todas las matrices 
y obténganse las ecuaciones normales. 

14.8. En muchas agencias gubernamentales y compañías privadas el problema de identificar 
aquellos factores que son importantes para predecir la aptitud para el trabajo de los as- 
pirantes a obtener un ejemplo constituye un proceso continuo. El procedimiento usual 
es el de aplicar al solicitante un conjunto de pruebas apropiadas y tomar las decisión de 
contratarlo o no con base en los resultados de éstas. El asunto clave es conocer apriori 
qué pruebas pueden predecir la aptitud para el trabajo de una persona. Supóngase que 
el personal de una compañía muy grande ha desarrollado cuatro pruebas para una 
determinada clasificación con respecto al trabajo. Estas pruebas se aplicaron a 20 indi- 
viduos que fueron contratados por la compañía. Después de un período de dos años, 
cada uno de estos empleados se clasifica de acuerdo con su aptitud para el trabajo. La 
puntuación para la aptitud hacia el trabajo y y la correspondiente a cada una de las 
cuatro pruebas x¡, x 2 , x 3 , x 4 se dan en la tabla 14.29. 



TABLA 14.29 


Datos de la muestra para el 


ejercicio 14.8 






Empleado 


Y 


■Ti 


Xl 


*s 


x t 


1 


94 


122 


121 


% 


89 


2 


71 


108 


115 


98 


78 


3 


82 


120 


115 


95 


90 


4 


76 


118 


117 


93 


95 


5 


111 


113 


102 


109 


109 


6 


64 


112 


96 


90 


88 


7 


109 


109 


129 


102 


108 


8 


104 


112 


119 


106 


105 


9 


80 


115 


101 


95 


88 


10 


73 


111 


95 


95 


84 


11 


127 


119 


118 


107 


110 


12 


88 


112 


110 


100 


87 


13 


99 


120 


89 


105 


97 


14 


80 


117 


108 


99 


100 


15 


99 


109 


125 


108 


95 


16 


116 


116 


122 


116 


102 


17 


100 


104 


83 


100 


102 


18 


96 


110 


101 


103 


103 


19 


126 


117 


120 


113 


108 


20 


58 


120 


77 


80 


74 



a) Utilícese la rutina PROC GLM de SAS (o algún otro paquete comparable) para 
a justar la regresión lineal de y sobre x, , x 2 , x } y x A . 

b) Con base en el listado de la computadora que se obtiene en la parte a, prepárese una 
tabla de análisis de varianza mostrando todas las posibles pruebas F parciales. 

c) Interprétense los coeficientes de regresión estimados y el coeficiente de correlación 
múltiple. 

14.9. Empléense los datos del ejercicio 14.8 para hacer lo siguiente: 

á) Obténganse todas las posibles ecuaciones de regresión, y para cada una calcúlese la 
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suma de los cuadrados de los errores, el cuadrado medio del error, el valor de C„ y el 
valor R 2 (véase el ejercicio 14.12). 

b) Demuéstrese que la regresión por pasos y el procedimiento de eliminación hacia 
atrás proporcionan los mismos resultados para la mejor ecuación de predicción. , 

c) Con base en los resultados anteriores, dedúzcase la mejor ecuación de predicción y 
empléese para estimar la aptitud para el trabajo de un individuo que tiene las si- 
guientes puntuaciones, en las pruebas: jc, = 105, x 2 = 1 10, x } = 99, y x A = 107. 
Obténgase un intervalo de predicción del 95% para esta cantidad. 

14. 10. De manera reciente, se ha dirigido el interés hacia el desarrollo de métodos más rápidos 
y económicos para vigilar la concentración de sedimentos y contaminantes en los re- 
cursos acuíferos de cierta nación. Para los encargados de vigilar el medio ambiente, el 
interés principal recae en la necesidad de cuantificar los valores de concentración en 
el agua con base en datos de percepción remota. El uso de las técnicas de percepción re- 
mota para vigilar distintos parámetros que miden la calidad del agua parece ser promete- 
dor. Un tipo de sistema de percepción remota es la variedad pasiva el cual depende, en 
forma única, de la radiación de sol como fuente de energía y mide el flujo total de radia- 
ción emitido por el sistema agua-atmósfera. Una componente muy grande de este flujo 
de radiación es el flujo de luz emitido por el agua, el cual, bajo condiciones normales, 
es una función de los constituyentes que se encuentran presentes en el agua. Para medir 
el espectro de esta radiación se encuentran disponibles un gran número de sistemas de 
rastreo multiespectral. Sin embargo, cada sistema tiene diferentes localizaciones de las 
bandas y anchos diferentes. 

Se piensa que un cambio en la concentración de un contaminante causará un cam- 
bio en el valor del flujo de radiaciones, es decir, si se conocen los valores de la radiación 
para diferentes bandas espectrales, entonces es posibles predecir la concentración de un 
contaminante en una fuente de agua dada. El problema reside en el hecho de identifi- 
car, de entre todas las bandas, cuál es la que puede predecir la concentración del conta- 
minante. En una tesis doctoral reciente, Whitlock* obtuvo datos reales de percepción 
remota proporcionados por un laboratorio, bajo condiciones controladas, que empleó 
cinco bandas y varios constituyentes, entre ellos el sedimento del feldespato. Los datos 
de la muestra se proporcionan en la tabla 14.30. 

a) Empléense las cinco bandas como variables de predicción y las concentraciones de 
feldespato como la respuesta, para ajustar un modelo de regresión lineal. 

b) Calcúlese la matriz de correlación para las cinco bandas de radiación. Interprétese 
el resultado. 

c) Úsese la regresión por pasos y el procedimiento de eliminación hacia atrás, para de- 
terminar el mejor conjunto de variables de predicción. ¿Son los resultados idénticos? 

d) Con base en los resultados anteriores, analícese cualquier aspecto que se considera 
evidente con respecto a este problema y que sirva para decidir por una ecuación de 
predicción adecuada. 

14.11. En la sección 14.5 se mencionó que el valor de R 1 aumenta conforme se añaden más 
términos a la ecuación de regresión debido a que SCE siempre disminuye al sumar 
más términos y STC siempre permanece constante. Es por esta razón que se sugiere una 
medida alternativa que tome en cuenta el número de términos que figuran en el modelo. 



* Charles H. Whitlock, tesis doctoral, Universidad Oíd Dominion, mayo, 1977. 
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TABLA 14.30 Datos de la muestra para el ejercicio 14.10 



Concentración 






Bandas de radiación 






Y de feldespato 


X, 


*1 


X, 


*4 


*i 


17 


0.297 


0.310 


0.290 


0.220 


0.156 


^ 17 


0.360 


0.390 


0.369 


0.297 


0.205 


35 


0.075 


0^058 


0.047 


0.034 


0.023 


69 


0.114 


0.100 


0.081 


0.058 


0.042 


69 


0.229 


0.213 


0.198 


0.142 


0.102 


173 


0.315 


0.304 


0.267 


0.202 


0.147 


• 173 


0.477 


0.518 


0.4% 


0.395 


0.285 


17 


0.072 


0.063 


0.047 


0.036 


0.024 


17 


0.099 


0.092 


0.074 


0.056 


0.038 


73 


0.420 


0.452 


0.425 


0.332 


0.235 


17 


0.189 


0.178 


0.153 


0.107 


0.076 


35 


0.369 


0.391 


0.364 


0.286 


0.200 


69 


0.142 


0.P.4 


0.105 


0.077 


0.056 


35 


0.094 


0.087 


0.072 


0.049 


0.032 


35 


0.171 


0.161 


0.145 


0.094 


0.068 


52 


0.378 


0.420 


0.380 


0.281 


C.200 



Esta medida recibe el nombre de coeficiente de correlación múltiple ajustado y se defi- 
ne por 

//i - l\ SCE 



n - pj STC 

donde p es el número de términos que contiene el modelo, incluyendo al término cons- 
tante. Use la información que se encuentra en la tabla 14.10 para demostrar que el 
coeficiente de correlación múltiple ajustado para una regresión lineal que contiene a 
X\ , x 2 , y xj es más pequeña que la de la ecuación que sólo contiene a x 2 yaij. 

14.12. Empléese la ecuación de regresión estimada en el ejercicio 14.9, parte a, que incluye sólo 
a x, , x 2 , y x 4 para calcular los residuos estandarizados. Entonces, grafiquense 
contra los valores correspondientes de x y Expliqúese el resultado. 

14.13. Úsese la ecuación de reducción simple estimada del eje. 13.14; calcúlense y grafiquense 
los residuos estandarizados frente al producto anual bruto (PAB) X. ¿Qué se puede 
concluir? Ajústese una nueva ecuación de reducción, como lo sugiere la gráfica resi- 
dual, para demostrar el riesgo de la extrapolación al estimar el pago de los impuestos 
porcentuales si el PAB es $ 250 000. 

14.14. Empléese la ecuación estimada de regresión lineal simple obtenida en el ejercicio 13.13 
para calcular y graficar los residuos estandarizados contra los años de experiencia. Ob- 
téngase una nueva ecuación de regresión, calcúlense los nuevos residuos estandariza- 
dos y de nuevo grafiquense contra x. ¿Qué se puede concluir? 

14.15. Los datos que se encuentran en la tabla 14.31 representan la temperatura atmosférica 
promedio Y en enero para 50 estaciones climatológicas situadas en el estado de Virgi- 
nia, donde cada estación se identifica por medio de su latitud x , longitud x y altitud x . 



1/vdl.a it.ji uaios ue la muestra para ci ejercicio it.u ■ 



Estación 










número 


Y 


Xl 


x 2 


JC> 


1 


37.9 


37.35 


79.52 


975 


2 


28.7 


38.52 


78.43 


3535 


3 


38.3 


37.08 


77.95 


440 


4 


37.3 


37.53 


79.68 


870 


5 


31.5 


37.08 


81.33 


3300 


6 ' 


35.0 


37.38 


80.08 


1890 


7 


36.0 


38.03 


78.52 


870 


8 


37.4 


36.83 


79.37 


700 


9 


40.4 


37.28 


75.97 


11 


10 


35.8 


37.77 


78.15 


300 


11 


35.3 


38.47 


78.00 


420 


12 


33.2 


38.45 


78.93 


1400 


13 


39.3 


36.58 


79.38 


410 


14 


41.3 


36.90 


76.20 


25 


15 


34.7 


38.45 


77.67 


300 


16 


38.0 


37.33 


78.38 


450 


17 


34.2 


36.93 


80.30 


2600 


18 


35.4 


38.30 


77.47 


100 


19 


35.7 


37.37 


80.87 


1524 


20 


39.7 


36.68 


76.78 


80 


21 


40.5 


37.30 


77.30 


40 


22 


31.6 


38.00 


79.83 


2238 


23 


40.0 


37.08 


76.35 


10 


24 


36.1 


37.78 


79.43 


1060 


25 


34.1 


39.12 


77.72 


500 


26 


36.1 


38.03 


78.00 


420 


27 


33.9 


38.67 


78.38 


1200 


28 


36.6 


37.33 


79.20 


916 


29 


37.1 


36.70 


79.88 


760 


30 


28.6 


38.42 


79.58 


2910 


31 


29.3 


39.07 


77.88 


1720 


32 


37.4 


37.70 


78.30 


300 


33 


40.5 


36.90 


76.20 


22 


34 


38.9 


37.58 


75.82 


300 


35 


34.4 


36.75 


83.03 


1510 


36 


35.3 


38.50 


77.32 


12 


37 


37.5 


37.50 


77.33 


164 


38 


36.4 


37.32 


79.97 


1149 


39 


35.0 


36.88 


81.77 


1735 


40 


34.0 


38.15 


79.03 


1385 


41 


33.3 


38.65 


78.72 


1000 


42 


38.6 


37.65 


76.57 


25 


43 


37.5 


37.75 


77.05 


50 


44 


36.2 


37.85 


75.48 


9 


45 


32.1 


38.95 


77.45 


291 


46 


35.6 


38.85 


77.03 


10 


47 


39.3 


37.30 


76.70 


70 


48 


33.7 


39.20 


78.17 


760 


49 


34.4 


38.88 


78.52 


887 


50 


34.4 


36.93 


81.08 


2450 



* Fuente: Monthly normáis of lemperalure, precipitation 
and healing and cooling degree days 1941-70, No. 81, 
NOAA, U. S. Department of Commerce. 
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o) Ajústese un modelo de regresión de segundo orden completo y llévense a cabo los 
análisis apropiados sobre sus resultados. ■'....,.? -...?-, 

6) Úsense los medios apropiados para evaluar si todos los términos que aparecen en la 
ecuación estimada de regresión deben retenerse. Si no es así, proporciónense argu- 
mentos suficientes para la elección de una ecuación de predicción adecuada. 

14.16. Los datos de la tabla 14.32 representan la tasa de crímenes aporcada 100 000 habitan- 
tes para los 48 estados de Estados Unidos y algunas variables de predicción potenciales 
como el porcentaje de población urbana x,, el porcentaje de la población minoritaria 
x 2 , la tasa de desempleo x y el porcentaje de la población que tiene cuatro o más años 
de educación x 4 y la región geográfica x r 

a) Empléese un procedimiento de regresión por pasos para obtener el mejor conjunto 
de variables de predicción por incluir en un modelo lineal. 

b) Para la mejor ecuación de predicción, calcúlense los residuos estandarizados y 
grafíquense contra las regiones. ¿La dispersión de estos residuos es esencialmente 
igual para todas las regiones? Si no es así obténganse los pesos para cada región 
mediante el empleo del procedimiento sugerido en la sección 14.8 y después utilícese 
el método de mínimos cuadrados con factores de peso para obtener las estimaciones 
de los coeficientes de regresión del mejor conjunto de variables de predicción. 
Compárense los resultados con los que se obtienen al emplear el método ordinario 
de mínimos cuadrados. 

14.17. Emplénse los datos del ejercicio 14.16 para obtener la matriz de correlación para todas 
las variables potenciales de predicción y la respuesta. ¿Cuáles variables de predicción 
son las que tienen mayor correlación con la respuesta? ¿Está este resultado de acuerdo 
con la parte a del ejercicio 14.16? ¿Existen otras variables de predicción que se en- 
cuentren muy correlacionadas? Coméntese en términos del problema de la 
multicolinealidad. 

14.18. Se cree que los salarios Y, en miles de dólares, para los profesores de cierta universidad 
por año académico están influenciados por tres variables: los años de experiencia en 
la enseñanza x ; el rango académico x , y la disciplina x^. Los datos que figuran en la 
taoia 14. a provienen de una muestra aleatoria de 18 profesores de esta universidad. 
Los rangos académicos se identifican por un 1 para profesor asistente, 2 para profesor 
asociado y 3 para profesor titular. Las disciplinas se identifican mediante un 1 para 
ciencias, 2 para humanidades, 3 para artes y 4 para finanzas. 

a) Defínanse las variables indicadoras para el rango y la disciplina. Entonces, ajústese 
un modelo lineal con el salario como la respuesta, los años de experiencia en la ense- 
ñanza, como la variable cuantitativa y las variables indicadoras representan el ran- 
go académico y la disciplina. 

b) Interprétense los coeficientes de la regresión estimada. 

c) Ajústese un modelo lineal que incluya todos los términos que contienen productos 
cruzados entre las variables indicadoras y x y Llévese a cabo un análisis completo 
sobre esta ecuación de regresión y obténganse las conclusiones adecuadas. 

d) Para cada disciplina y rango académico, grafiquese la ecuación de regresión estima- 
da obtenida en la parte c como una función de jc,. 
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TABLA 14.32 Datos de la muestra para el ejercicio- 14.16 



Estado 


Y 


X\ 


-''■■ : ''V" '"'' 


•«Ti,,-.- 


, ■ x, l 


"" x, 


1 


14.2 


58.4 


25.8 


7.4 


10.2 


6 


.2 


9.5 


79.6 


9.2 


9.8 


15.7 


8 


3 


8.8 


50.0 


18.4 


6.6 


911 


6 


4 


11.5 


90.9 


12.0 


8.2 


16.8 


8 


5 


6.3 


78.5 


4.7 


5.6 


19.4 


7 


6 


4.2 


77.4 


6.6 


7.1 


18.3 


1 


7 


6.0 


72.2 


15.2 


8.9 


15.5 


2 


8 


10.2 


80.5 


14.9 


9.0 


13.7 


5 


9 


11.7 


60.3 


26.5 


6.9 


12.3 


5 


10 


5.5 


54.1 


1.8 


6.3 


13.5 


7 


11 


9.9 


83.0 


14.7 


6.5 


13.7 


3 


12 


7.4 


64.9 


7.6 


5.7 


11.0 


3 


13 


2.3 


57.2 


1.6 


4.0 


12.8 


4 


14 


6.6 


66.1 


5.6 


4.0 


14.6 


4 


15 


10.1 


52.3 


7.5 


4.6 


10.0 


6 


16 


15.5 


66.1 


30.2 


7.0 


11.5 


6 


17 


2.4 


50.8 


0,7 


8.9 


13.6 


1 


18 


8.0 


76.6 


21.1 


6.8 


18.6 


2 


19 


3.1 


84.6 


4.3 


9.5 


16.8 


1 


20 


9.3 


73.8 


12.5 


8.2 


12.6 


3 


21 


2.7 


66.4 


2.0 


5.9 


13.2 


4 


22 


14.3 


44.5 


36.4 


7.4 


11.5 


6 


23 


9.6 


70.1 


11.2 


6.2 


11.8 


4 


24 


5.4 


53.4 


4.8 


6.2 


14.2 


7 


25 


3.9 


61.5 


3.8 


5.0 


12.8 


4 


26 


15.8 


80.9 


8.3 


9.0 


13.1 


8 


27 


3.2 


56.4 


0.7 


6.4 


15.3 


J 


28 


5.6 


88.9 


12.8 


9.4 


14.9 


2 


29 


8.8 


69.8 


9.8 


7.8 


15.3 


8 


30 


10.7 


88.9 


14.6 


9.1 


16.0 


2 


31 


10.6 


45.0 


23.1 


6.2 


11.8 


5 • 


32 


0.9 


44.3 


3.3 


5.5 


12.2 


4 


33 


7.8 


75.3 


10.1 


7.8 


11.5 


3 


34 


8.6 


68.0 


11.3 


5.0 


11.7 


6 


35 


4.9 


67.1 


3.0 


9.5 


15.4 


7 


36 


5.6 


71.5 


9.4 


7.9 


11.9 


2 


37 


3.9 


87.1 


3.7 


8.6 


14.9 


1 


38 


11.9 


47.6 


31.2 


5.0 


10.4 


5 


39 


2.0 


44.6 


6.1 


3.6 


11.4 


4 


40 


10.1 


58.7 


15.9 


6.0 


10.5 


6 


41 


13.3 


79.7 


13.1 


5.7 


13.7 


6 


42 


3.5 


80.4 


2.5 


5.3 


17.5 


7 


43 


1.4 


32.2 


0.8 


8.0 


15.6 


1 


44 


9.0 


63.1 


19.5 


5.6 


16.4 


5 


45 


4.3 


72.6 


5.1 


8.8 


16.1 


7 


46 


6.0 


39.0 


3.9 


7.5 


9.2 


5 


47 


2.8 


65.9 


3.9 


4.5 


12.7 


3 


48 


5.4 


60.5 


3.1 


3.6 


14.5 


7 



Fuente: World almanac, 1979 
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TABLA 14.33 Datos de la muestra para el ejercicio 14.18 



Y 


x, 


- x z 


Xj 


25.7 


10 


1 


2 


18.8 


4 


1 


1 


18.6 


5 


1 


3 


21.8 


13 


2 


3 


26.3 


4 


1 


4 


29.4 


24 


3 


3 


28.6 


7 


2 


2 


34.5 


12 


3 


4 


24.3 


11 


2 


1 


21.2 


6 


1 


3 


28.8 


6 


1 


4 


24.7 


4 


I 


2 


32.4 


12 


3 


2 


33.4 


20 


3 


1 


27.4 


II 


2 


1 


29.8 


6 


2 


4 


31.4 


11 


2 


4 


27.7 


8 


2 


3 



CAPÍTULO QUINCE 



Métodos no paramétricos 



15.1 Introducción 

Los procedimientos inferenciales que hasta este momento se han estudiado, con ex- 
cepción de los límites de tolerancia independientes de distribución analizados en el 
capítulo 8, y de la estadística de Kolmogorov-Smirnov, presentada en el capítulo 10, 
necesitan de la especificación de una distribución para la población de interés. Por 
ejemplo, el procedimiento del análisis de varianza se hace posible al asumir que las 
observaciones provienen de distribuciones normales. De esta forma, la mayor parte 
de los procesos inferenciales que se han presentado representan estimaciones con 
respecto a los parámetros de la población de interés. Por esta razón, este tipo de in- 
ferencias reciben el nombre de métodos paramétricos. 

Para muchos de los métodos inferenciales que se han examinado se ha hecho un 
intento por determinar su robustez, y en muchas ocasiones se ha encontrado que los 
métodos son razonablemente robustos con respecto a las distribuciones supuestas. 
No obstante, en general los métodos paramétricos son más sensibles a las suposi- 
ciones para muestras de tamaño pequeño y, para muchos de ellos, su aplicación se 
encuentra limitada a aquellas observaciones que tienen un carácter cuantitativo, es 
decir, se supone que lo que se observa es una cantidad numérica continua como el vo- 
lumen de ventas semanal, la cantidad de cierta sustancia que se vacía en un recipien- 
te, la resistencia de una muestra de metal y otros más. 

Las observaciones de tipo cuantitativo se definen, en forma general, sobre un in- 
tervalo o sobre una escala de proporciones. Las mediciones que se definen en una es- 
cala de intervalo se pueden distinguir y ordenar en forma numérica, y sus diferencias 
son significativas. Un ejemplo clásico de una escala de intervalo es aquel que incluye 
la medición de la temperatura. Puede escogerse entre registrar la temperatura en gra- 
dos Celsius (para los cuales el punto de congelación del agua es de 0°C) o en grados 
Fahrenheit (para los que el punto de congelación es de 32°F). De esta forma el ori- 
gen de las escalas es diferente, pero el significado de la diferencia entre 10°C y 15°C 
es el mismo que tiene la diferencia entre 20°C y 25°C. 

Si una medición reúne los requisitos de una escala de intervalo y además tiene un 
verdadero punto de origen, entonces la medición se define sobre una escala de pro- 
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porciones. Por ejemplo, las alturas, los pesos, las resistencias y otros se encuentran 
definidos sobre una escala de proporciones ya que tienen verdaderos puntos cero, 
sin importar la unidad de medición. Las escalas de intervalo y de proporción son 
verdaderamente cuantitativas. Para la mayor parte de los métodos paramétricos que 
se lian presentado, como son la construcción de intervalos de confianza, la prueba de 
hipótesis estadísticas y el ajuste de ecuaciones son aplicables a todas aquellas obser- 
vaciones que se encuentran definidas, por lo menos, sobre una escala de intervalo. 

Sin embargo, en muchas situaciones lo que se observa tiene un carácter cualitati- 
vo (no cuantitativo) y, por lo tanto, no puede definirse sobre una escala de intervalo o 
de proporciones. Tales situaciones se encuentran con frecuencia en las ciencias so- 
ciales y en las encuestas de mercado. Por ejemplo, no es probable que al evaluar las 
preferencias del consumidor con respecto a una bebida, se adhieran a una escala nu- 
mérica significativa, incluso si se le pidiese al consumidor su opinión con respecto a 
la bebida en una escala de cinco puntos, donde 1 y 5 pueden representar reacciones 
muy negativas o muy positivas, respectivamente, la escala es arbitraria. En otras pa- 
labras, los números no tienen ningún significado físico más allá que el de representar 
con un número más grande la respuesta más favorable para la bebida. 

Las observaciones de este tipo pueden definirse sobre una escala ordinal, dado 
que la distancia entre dos puntos no es de consecuencia y sólo es importante el orden 
o rango de los números. En algunas ocasiones, las observaciones sólo pueden defi- 
nirse sobre una escala nominal debido a que se emplea, ya sea un nombre (símbolo) o 
un número para clasificar una característica de interés, pero el principio de orden no 
es de consecuencia. Por ejemplo, las personas pueden clasificarse de acuerdo con su 
sexo. Pueden emplearse los símbolos M y H o utilizar números como 122 y 48 para 
denotar mujer u hombre. Las observaciones que se definen sobre escalas nominales 
son mediciones con pocas propiedades. 

Se han desarrollado procedimientos inferenciales que no se encuentran sujetos a 
la forma de la distribución de la población de interés y no requieren, en forma nece- 
saria, que las observaciones se definan por lo menos en una escala de intervalo. Es- 
tos procedimientos inferenciales se conocen como métodos no paramétricos. Dado 
que estos métodos no necesitan que se especifique la forma de la distribución de la 
población de interés, también se conocen como métodos independientes de la distri- 
bución (recuérdese, por ejemplo, los límites de tolerancia independientes de la 
distribución estudiados en el capítulo 8). En un sentido relativo, los métodos para- 
métricos requieren de pocas suposiciones y, la mayor parte de las veces, son más fá- 
ciles de aplicar que los procedimientos paramétricos que se han presentado en los 
capítulos anteriores; además, los métodos no paramétricos pueden aplicarse en 
aquellas situaciones para las que las observaciones se definen, por lo menos, en una 
escala de intervalo y, en ocasiones, sobre escalas nominales. Pero si las observa- 
ciones se definen por lo menos en una escala de intervalo y la distribución de la 
población de interés es normal, los métodos no paramétricos son menos eficientes 
comparados con los procedimientos paramétricos que se basan en la suposición de 
normalidad. 

Se han desarrollado muchos métodos paramétricos en los que se han incluido 
procedimientos de análisis de varianza y de regresión. Las referencias citadas al final 
del capítulo proporcionan un panorama completo de todos los métodos no para- 
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métricos. El propósito de este capítulo radica sólo en introducir los conceptos bási- 
cos y presentar, algunos métodos que son¿ en forma especial, útiles. Estos procedi- 
mientos no paramétricos soa comparables, con los métodos paraméíricos para la 
prueba de hipótesis con respecto a las medias de dos distribuciones normales inde- 
pendientes (sección 9.6.2), la prueba de hipótesis con respecto a las medias para ob- 
servaciones igualadas (sección 9.6.4), experimentos unifactoriales en diseños y en 
bloque completamente aleatorios (sección 12.4 y 12.5) y correlación lineal (sección 
13.8). 



15.2 Pruebas no paramétricas para comparar dos poblaciones 
con base en muestras aleatorias independientes 

En la sección 9.6.2 se consideró el problema de comparar las medias de dos distribu- 
ciones cando se supone que son normales. En esta sección se analizarán dos proce- 
dimientos no paramétricos para comparar las distribuciones de dos poblaciones: la 
prueba U de Mann-Whitney y la prueba de tendencias de Wald-Wolfowitz. La única 
suposición necesaria para su aplicación es que las distribuciones de interés sean conti- 
nuas. De acuerdo con lo anterior, se supondrá que X { , X 2 , .., X„ y y,, Y 2 , ..., Y„^ 
son muestras aleatorias independientes de dos poblaciones con distribuciones continuas. 

15.2.1 Prueba de Mann-Whitney 

Dadas muestras aleatorias independientes de dos poblaciones, considérese la prueba 
de la hipótesis nula de que las poblaciones tienen la misma distribución. La hipótesis 
puede establecerse como 

H :f,(x)=f 2 (y), (15.1) 

donde f { (x) y f 2 (y) son las correspondientes funciones de densidad de probabili- 
dad. La hipótesis alternativa puede ser uni o bilateral. La hipótesis alternativa bila- 
teral establece en forma sencilla que las distribuciones no son las mismas. Pero la hi- 
pótesis alternativa sólo implica un desplazamiento en la tendencia central de una 
distribución con respecto a la otra y no sugiere una diferencia en la forma o en la 
dispersión. En otras palabras, al igual que para el procedimiento t de Student, se 
supone que las distribuciones tienen la misma forma y dispersión. 

Un procedimiento popular no paramétrico para probar la hipótesis nula dada 
por (15.1) es la prueba U de Mann-Whitney* Esta prueba es el equivalente no para- 
métrico de la prueba / de student para dos muestras estudiada en la sección 9.6.2. La 
prueba de Mann-Whitney se basa en una combinación de las n , y n 2 observaciones 
para formar un solo conjunto de n t + n 2 observaciones arregladas en orden cre- 
ciente de magnitud. Entonces se asigna un rango a cada observación en la secuencia 
ordenada que comienza con un rango 1 y termina con un rango n¡ + n 2 . Si las 
muestras aleatorias provienen de poblaciones que tienen la misma distribución, se 
espera que los rangos se encuentren lo suficientemente dispersos cuando se observa 

* Este procedimiento es, en forma esencial, igual a la prueba de Wilcoxon de la suma del rango. 
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en qué muestra se encuentran las observaciones. De otra forma, debe esperarse que 
los rangos de las observaciones en cada muestra se encuentren muy agrupados 
en los extremos. En esencia, la estadística de Mann-Whitney determina cuándo un 
agregado de rangos observados es suficiente para concluir que las dos müTéstrasaléa. 
toñas provienen de poblaciones cuyas distribuciones difieren en la tendencia central: 
Para implementar el procedimiento se. obtiene la suma de los rangos asociados 
con las observaciones de una de las dos muestras, por ejemplo la muestra 1, la cual 
se escoge en forma arbitraria. Denótese esta suma por R t . Entonces la estadística U 
de Mann-Whitney está dada por 

U = /i,/i 2 H «|. (15.2) 

La estadística U es una función de la variable aleatoria R, y de los tamaños de las 
muestras n¡ y n 2 . Si H es cierta, la ocurrencia de cualquier orden particular para 
las observaciones en el conjunto combinado es equiprobable. Por lo tanto, bajo H , 
R¡ es la suma de n } enteros positivos seleccionados en forma aleatoria de entre los pri- 
meros n, + n 2 . De acuerdo con lo anterior, puede determinarse que 

£(/?,) = /!,(/!, + n 2 + l)/2, (15.3) 

Var^R,) = /i,/i 2 (/i, + n 2 + 1)/12. (15.4) 



De (15.2) sigue que 



E(U) = n,n 2 + /l|(/l ' + 1} _ £(/?,) = n y n 2 /2, (15.5) 



Var(U) = Var(R t ) = /j,/i 2 (/i, + n 2 + 1)/12. (15.6) 

Se ha determinado y tabulado la distribución exacta de U. Se invita al lector a 
que consulte [1] y [2] para conocer los detalles. Para una hipótesis alternativa bilate- 
ral, es probable que se rechace H si se obtiene un valor muy grande o muy pequeño 
de U. Lo anterior ocurrirá cuando el valor de R¡ es muy grande o muy pequeño, res- 
pectivamente. Sin embargo, cuando tanto n, y n 2 son mayores de 10, la distribución 
de Use encuentra, en forma adecuada, aproximada por una distribución normal con 
media y varianza dadas por (15.5) y (15.6), respectivamente, es decir, bajo H la va- 
riable aleatoria 

Z _ U- E(U) 
y/Var(U) 

es aproximadamente A^O, 1) para valores grandes de /i, y n 2 - 

Debe notarse que a pesar de que no pueden ocurrir empates en la práctica desde 
un punto de vista teórico, esto ocurre en muchas ocasiones. Cuando ocurre un em- 
pate en la secuencia ordenada, se sugiere asignar el promedio de los rangos a las ob- 
servaciones para las cuales ocurre el empate. Por ejemplo, supóngase que las obser- 
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vaciones octava y novena en la secuencia ordenada son las mismas. Entonces a cada 
una de estas observaciones se les asigna un rango de 8.5. v 



Mujeres 


22.5 


19.8 


20.6 24.7 


23.2 


19.2 


18.7 


20.9 21.6 


23.5 


20.7 


21.6 


Hombres 


21.9 


21.6 


22.4 24.0 


24.1 


23.4 


21.2 


23.9 20.5 


24.5 


22.3 


23.6 



¿Existe alguna razón para creer que estas muestras aleatorias provienen de pobla- 
ciones con diferentes distribuciones? Úsese a = 0.05. 

Se combinan los salarios de las dos muestras para formar un solo conjunto de 24 
salarios anuales. Entonces se ordenan los salarios y se les asigna un rango de la si- 
guiente manera: 



Sexo 


M 


M 


M 


H 


M 


M 


M 


H 


H 


M 


M 


H 


Rango deí 
salario 


18.7 
1 


19.2 

2 


19.8 
3 


20.5 
4 


20.6 

5 


20:7 

6 


20.9 

7 


21.2 
8 


21.6 
10 


21.6 
10 


21.6 
10 


21.9 
12 



Sexo 


H 


H 


F 


M 


H 


M 


H 


H 


H 


H 


H 


M 


Rango del 
salario 


22.3 
13 


22 A 
14 


22.5 
15 


23.2 
16 


23.4 
17 


23.5 
18 


23.6 
19 


23.9 
20 


24.0 
21 


24.1 

22 


24.5 
23 


24.7 
24 



Para obtener la suma de los rangos se seleccionará la muestra de mujeres. De esta 
forma la suma de los rangos es 

1 + 2 + 3 + 5 + 6 + 7 + 10 + 10 + 15 + 16 + 18 + 24 = 1 17, 

y el valor de la estadística U de Mann-Whitney es 

.« = (12)(12) + ^~ - 117 = 105. 

Dado que E(U) = (12)(12)/2 = 72 y Var(U) = (12)(12)(25)/12 = 300, median- 
te el empleo de la aproximación normal, 

z = (105 - 72)/V3ÓO = 1.91 

es un valor de una variable aleatoria normal estándar. Para a = 0.05, los valores 
críticos son ± 1 .96. Por lo tanto, no puede rechazarse la hipótesis nula de que las 
muestras aleatorias provienen de poblaciones con distribuciones idénticas. 



m- 



Ejemplo 15.1 Se sospecha que una compañía lleva a cabo una política de discrimi- || 

nación, con respecto al sexo, en los salarios de sus empleados. Se seleccionaron 12 
empleados masculinos y 12 femeninos de entre los que tienen responsabilidades y ex- 
periencia similares en el trabajo; sus salarios anuales en miles de dólares son los si- 
guientes: 
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15.2.2 Prueba de tendencias de Wald-Wolfowitz 

Otro método no paramétrico que compara las distribuciones de dos poblaciones con 
base en muestras aleatorias independientes es la prueba de tendencias de Wald- 
Wolfowitz. Para esta prueba, la hipótesis nula es que las dos muestras aleatorias pro- 
vienen de poblaciones que tienen distribuciones idénticas, pero a diferenca de la 
prueba U de Mánn-Whitney, no sugiere una diferencia sólo en la tendencia central; 
es decir, la hipótesis alternativa en la prueba de Wald-Wolfowitz es mucho mas 
amplia. Ésta establece simplemente que las distribuciones difieren en algún aspecto 
como en la tendencia central, en la dispersión o la asimetría. 

Al igual que en la prueba de Mann-Whitney, las observaciones en las dos 
muestras aleatorias se combinan y ordenan de acuerdo con sus magnitudes. Pero en 
lugar de considerar los rangos, el procedimiento de Mann-Wolfowitz busca el núme- 
ro de tendencias en la secuencia ordenada. 

Definición 15.1 Se define una tendencia de longitud j como una secuencia de./' ob- 
servaciones, tod«s pertenecientes al mismo grupo, que se encuentran, ya sea precedi- 
das o seguidas por observaciones que pertenecen a un grupo diferente. 

Como ilustración, recuérdese la secuencia ordenada del ejemplo 15.1. La secuen- 
cia ordenada de acuerdo con el sexo de los empleados es la siguiente: 

FFFMFFFMMFFM 
MMFF MFMMMMMF 

Para el sexo del empleado, la secuencia ordenada exhibe tendencias de M y H. En 
particular, la secuencia comienza con una tendencia de longitud tres, seguida por 
una tendencia de longitud uno, seguida por otra de longitud tres, y aá consecutiva- 
mente. El número total de tendencias en esta secuencia es de 1 1. 

Si la hipótesis nula de que las distribuciones son idénticas es cierta, las observaciones 
de las dos muestras en la secuencia ordenada deben encontrarse bien mezcladas, produ- 
ciendo de esta forma un número grande de tendencias. Pero si las distribuciones de inte- 
rés difieren en algún aspecto, es probable que la secuencia ordenada contenga tendencias 
de corta longitud obteniéndose de esta forma un número total de tendencias pequeño. 

Sea R el número total de tendencias observadas en una secuencia ordenada de 
«i + n 2 observaciones, donde n¡ y n 2 son los respectivos tamaños délas muestras. 
Los posibles valores de R son 2, 3, ..., («, + n 2 ). Puede demostrarse que la fun- 
ción de probabilidad de R está dada por 



«.-1 «2-1 

r/2 - 1/W2 " 1 



P(r) = < 



par. 



n¡ + n 2 

"■ / (15.7) 



«i - I \ «2-1 \ , / «, - 1 \ «2-1 

r/2 - 1/2 A r/2 - 1/2 + l r/2 - 3/2 ) \ r/2 - 1/2 



+ "2 
«1 



r impar. 



578 Métodos no paramétricos 

La media y la varianza de R son i - 

V ít - - , E (Ry = -^- + 1, (15.8) 

, Var(R) 2 ^ 2 ^-;» - " »> . v ( ,5.9) 

(/i i + n 2 ) ("i + n 2 - 1) . 

Para probar // con una probabilidad a, para el error de tipo I, debe encontrarse 
un entero r tal, que en la medida de lo posible 

2 P(r) = a. 

r=2 

Se rechaza la hipótesis nula cuando el número observado de tendencias es menor o 
igual a r . Nótese que la región crítica es una región unilateral inferior dado que se 
rechaza H cuando el número de tendencias es bastante pequeño. 

La distribución acumulativa de R se encuentra tabulada en forma extensa; pero 
si tanto «j como n 2 son mayores que 10, la distribución de R se encuentra, en forma 
adecuada, aproximada por una distribución normal con media y varianza dadas por 
(15.8) y (15.9), respectivamente. Como ilustración, recuérdese el ejemplo 15.1. El nú- 
mero observado de tendencias es 1 1 , y para n , = n 2 = 1 2 los valores de la media y 
la varianza de R son 13 y 5.7391, respectivamente. Entonces, mediante el empleo de la 
aproximación normal, 



z = (11 - 13)A/5.7391 = -0.83 

es un valor de una variable aleatoria normal estándar. Para a = 0.05, se observa 
que la hipótesis nula no puede ser rechazada. 

En la aplicación de la prueba de tendencias de Wald-Wolfowitz surge un proble- 
ma muy serio cuando ocurren empates entre las observaciones que se encuentran en 
grupos diferentes. Este problema se debe a que el número de tendencias depende de 
cómo se manejen los empates en la secuencia ordenada. El procesamiento que se su- 
giere en estos casos es el de ordenar las observaciones empatadas en forma tal, que 
sea lo menos favorable para el rechazo de H . Pero si se tienen muchos empates, la 
validez de la prueba de Wald-Wolfowitz es cuestionable. 

Por causa de la naturaleza extensa de la hipótesis alternativa en la prueba de 
Wald-Wolfowitz, ésta y la prueba de Mann-Whitney no son comparables. Si un in- 
vestigador desea comparar las tendencias centrales de las distribuciones de dos 
poblaciones y sólo se tienen observaciones ordinales disponibles, la estadística de 
Mann-Whitney es el procedimiento no paramétrico más poderoso para detectar dife- 
rencias entre las tendencias centrales. Si se va a hacer una comparación más amplia, 
la prueba de Wald-Wolfowitz es un procedimiento viable pero menos poderoso. 



15.3 Pruebas no paramétricas para observaciones por pares 

En la sección 9.6.4 se consideró la comparación entre las medias de dos tratamientos 
cuando las observaciones se encuentran igualadas con el propósito de eliminar los 
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efectos; causados por factores externos. En esta sección se discutirán dos pruebas no 
paramétricas que son equivalentes al procedimiento / de Student de la sección 9.6.4. 
Éstas son la prueba del signo y la prueba de rangos y signos de Wilcoxon. 

15.3.1 La prueba del signo 

La prueba del signo se basa' en los signos de las diferencias entre las 
observaciones por pares de dos variables aleatorias A" y Y. Sean (X u Y,),(X 2 , Y 2 ), ..., 
(A„, Y n ) pares de n observaciones muéstrales de las distribuciones de A" y Y, 
donde se supone que éstas son continuas. En muchas ocasiones existe una relación 
natural entre X y Y, por lo que A" y y no necesitan ser independientes. Por ejemplo, 
Xy Y pueden representar las respuestas de parejas de matrimonios. 

Para cada par en el que X es mayor que Y se registra un signo ( + ) de otra forma 
se registra un signo (-). Dado que se supone que las distribuciones de A y y son con- 
tinuas, en forma teórica, no pueden ocurrir empates. Sea/? la probabilidad de que X 
sea mayor que Y. Entonces si la hipótesis nula es que A y y tienen la misma distribu- 
ción, el valor dtp debe ser igual a 0.5. Sin embargo, debe notarse que/? puede ser 
igual a 0.5, aun cuando las distribuciones de A y y no sean idénticas. Por lo tanto, y 
en esencia, la hipótesis nula para la prueba del signo es 

H : p = 0.5, 

La cual puede probarse contra hipótesis alternativas, ya sean uni o bilaterales, lo cual 
depende de lo que el investigador desee. Nótese que si H es cierta, debe esperarse 
que, en forma aproximada, la mitad de los n pares tengan signos + . 

La estadística para la prueba del signo, denotada por S, es el número de signos + 
entre los ñ pares. Dado que bajo H cada par constituye un ensayo independiente 
con una probabilidad para el signo + de 0.5, la estadística S tiene una distribución 
binomial con/? = 0.5. De acuerdo con lo anterior, para n dado y/? = 0.5, se emplea 
la distribución binomial para obtener las regiones críticas de tamaño a para el error 
de tipo I. Para valores grandes de n puede utilizarse la aproximación normal de la 
distribución binomial, estudiada en la sección 5.2. 

Cuando ocurren empates al aplicar la prueba del signo, el procedimiento que se 
recomienda seguir es el de ignorarlos y emplear la prueba sólo para aquellos pares en 
los que no ocurren empates. Este procedimiento puede representar un problema si se 
tienen numerosos empates y el número original de pares es relativamente pequeño. 

Ejemplo 15.2 Se seleccionaron al azar 10 parejas de recién casados, y se les pre- 
guntó por separado, tanto al marido como a la esposa, cuántos hijos deseaban tener. 
Se obtuvo la siguiente información. 



Pareja 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 


Esposa X 
Marido Y 


3 

2 


2 
3 


1 

2 




2 






1 

2 


2 
1 


2 
3 


2 
1 




2 



Mediante el empleo de la prueba del signo, ¿existe alguna razón para creer que las 
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esposas desean menos hijos que sus esposos? Supóngase un tamaño máximo del 
error del tipo I de 0.05. ~', •■""! : : -: 

■<.'o;.V.'; ; ■. ii ? ■'■••"•"•.' •' ••.•.■"•■'•-• r-v^-aó.vs-'i' '■''' .- ■■■■"•-.■■ ■•■■»t'V~'-; - , ■" . . . 

Considérese la prueba de la hipótesis nula 

H : P = 0.5 
contra la alternativa 

//,: p<0.5. 

Nótese que deberá rechazarse H si el número de signos + es muy pequeño. Al res- 
tar las respuestas de cada esposo de la de su esposa, y notando que las respuestas de 
cinco de las parejas son las mismas, se obtiene el siguiente arreglo de signos + y -: 



Pareja 



8 9 10 



Signo 

Existen tres signos + de manera tal, que el valor de la estadística S es 3. Dado 
que bajo H , S es binomial con n = 10 y/7 = 0.5, el valor/?, o la probabilidad de 
observar tres o menos signos + , se obtiene de la tabla A del apéndice y es 

P(S =s 3) = 0.2539. 

Dado que 0.2539 es mayor que a = 0.05 la hipótesis nula no puede rechazarse. Nó- 
tese que para este ejemplo el valor crítico de S debe ser igual a uno si el tamaño máxi- 
mo del error de tipo I es de 0.05. 

15.3.2 Prueba de rangos de signos de Wilcoxon 

La prueba del signo considera sólo las diferencias en el signo entre cada par de ob- 
servaciones e ignora sus magnitudes. Si las observaciones se definen sobre una escala 
ordinal, las magnitudes de las diferencias tienen poco valor. Pero si las observa- 
ciones son magnitudes físicas, la prueba del signo puede ignorar mucha información 
debido a que no se toman en cuenta las magnitudes de las diferencias. Laprueba de 
rangos y de signos de Wilcoxon toma en cuenta tanto el signo como la magnitud de las 
diferencias entre cada par de observaciones. Por lo tanto, para tener un buen ba- 
lance, éste es el mejor método no paramétrico por utilizar para observaciones en pa- 
rejas. 

Para implementar la prueba de Wilcoxon, se obtienen las diferencias para los n 
pares de observaciones. Entonces, se ordenan sin importar el signo y de acuerdo con 
este orden se les asigna un rango, es decir, la diferencia más pequeña recibe un rango 
uno y a la diferencia absoluta más grande se le asigna un rango igual a n. Entonces, 
el signo de cada diferencia se une al rango de ésta. Los empates entre las diferencias 
se manejan de la misma manera que en la prueba de Mann-Whitney, pero si una di- 
ferencia es igual a cero, el procedimiento que se sugiere es omitir el par y ajustar n. 

La estadística de la prueba de Wilcoxon es la suma de los rangos positivos y se 
denota por 7"+ . Nótese que T + contiene no sólo información proporcionada por la 
estadística de la prueba del signo sino también información con respecto a la magni- 
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tud relativa de las diferencias. Si la hipótesis nula de que las observaciones en cada 
par provienen de distribuciones idénticas es cierta, la ocurrencia de cualquier secuen- 
cia, en particular de los rangos y signos, es equiprobable de entre las 2, secuencias po- 
sibles de signos + y -. Bajo la hipótesis nula, se espera que T+ tenga el mismo valor, 
aproximadamente, que la suma de las magnitudes de los rangos negativos. Por lo 
tanto, dependiendo de la naturaleza de la hipótesis alternativa, se rechaza H cuando 
se observa un valor de T + suficientemente grande o pequeño. 

Se ha determinado y tabulado la distribución exacta de T + . Sin embargo, al igual 
que para algunas otras estadísticas, la distribución de muestre de T + se encuentra 
aproximada, en forma adecuada, por una distribución normal para n > 10, donde 

E(T + ) = n(n+ l)/4, (15.10) 

Vat{T + ) = n(n + l)(2n + l)/24. (15.11) 

En otras palabras, la variable aleatoria 

z ^ T + - E(T + ) 
VVar(T + ) 

es aproximadamente ÍV(0, 1) para valores grandes de n. 

Ejemplo 15.3 De una clase de estadística se seleccionan al azar 1 1 estudiantes y se 
observan sus calificaciones en dos exámenes sucesivos. Para las calificaciones dadas 
en la tabla 15.1, utilícese la prueba de rangos y de signos de Wilcoxon para determi- 
nar si el segundo examen fue más difícil que el primero. Úsese a =0.1. 

En la tabla se encuentran las diferencias (examen 1 - examen 2), rangos, y rangos 
con signos para los 1 1 estudiantes. Dado que se desea determinar si el segundo exa- 
men fue más difícil que el primero, la hipótesis alternativa es unilateral, y la región 
crítica se encuentra en el extremo superior de la distribución de muestreo de 7+ es 
decir, si el valor observado de la suma de los rangos positivos es grande, lo anterior 



TABLA 15.1 Datos de la muestra para el ejemplo 15.3 



Estudiante 


Prueba I 


Prueba 2 


Diferencia 


Rango 


Rango con signo 


1 


94 


85 




9 


8 


8 


2 


78 


65 




13 


10 


10 


3 


89 


92 




-3 


4 


-4 


4 


62 


56 




6 


7 


7 


5 


49 


52 




-3 


4 


-4 


6 


78 


74 




4 


6 


6 


7 


80 


79 




1 


1 


1 


8 


82 


84 




-2 


2 


-2 


9 


62 


48 




14 


11 


11 


10 


83 


71 




12 


9 


9 


11 


79 


82 




-3 


4 


-4 
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implicaría tener calificaciones bajas, en forma suficiente, para el examen 2, y debe 
rechazarse la hipótesis nula de no diferencia. 

La suma de los rangos positivos es -8 + 10 + 7 + 6 + 1 + 11 +.9. = 52. 
Para n = 11, los valores de la media y la varíanza de T + son E(T+) =. 33< y 
Var(T+) = 126.5. Entonces, mediante el empleo de la aproximación normal, ' 

V126.5 
Para a = 0.1, z . 9 = 1-28, y por lo tanto se rechaza la hipótesis nula. 



15.4 Prueba de Kruskal-Wallis para k muestras aleatorias 
independientes 

Recuérdese el procedimiento paramétrico del análisis de varíanza de la sección 12.4, 
en el que el interés radica en probar la hipótesis nula 

H : fi t = i¿ 2 = ■■■ = fi k , 

con base en k muestras aleatorias mutuamente independientes provenientes de 
poblaciones cuyas distribuciones se suponen como normales. Se han desarrollado 
métodos no paramétricos para, de manera esencial, el mismo propósito siempre que 
por lo menos se encuentren disponibles mediciones ordinales y las distribuciones de 
las poblaciones de interés sean continuas. Uno de estos métodos es el procedimiento 
de Kruskal- Wallis, el cual prueba las hipótesis nulas de que los efectos de los trata- 
mientos son los mismos, o que las k muestras aleatorias provienen de poblaciones 
con distribuciones idénticas. 

Sean las observaciones de las k muestras aleatorias las dadas en la tabla 15.2, 
donde n 7 es el tamaño de lay'-ésima muestra y N = £*=!«> es el número total de 
observaciones para todas las muestras. 

La hipótesis nula puede establecerse como 

h : fi(y)=f¿y) = -=fAy) (15.12) 

donde /i(y),/ 2 (v), ••-,/*( y) son las correspondientes funciones de densidad de 
probabilidad. La hipótesis alternativa puede ser general y establecer sólo que las k 



TABLA 15.2 Observaciones de k muestras aleatorias para la prueba de Kruskal-Wallis 

Muestra 



^21 Y 22 ••• Y t¡ "" Y tu 

Y„\ Y„^i ... Y„ ¡ ... Y„ ík 



j ->.-> rrueoa ue r^rusKai- n auts para k muestras aleatorias independientes mu 

distribuciones no son idénticas. Sin embargo, la prueba de Kruskal-Wallis es sen- 
sible á las diferencias en tendencia central y es muy útil cuando se sospecha que las 
distribuciones de interés difieren sólo en ese aspecto. De acuerdo con lo anterior, el 
procedimiento de Kruskal-Wallis se considera, en general, como una extensión de la 
prueba £/, de Mann-Whitney. - 

Al igjial que en la prueba de Mann-Whitney, el procedimiento de Kruskal-Wallis 
se basa en la combinación de todas las observaciones en las muestras aleatorias para 
formar un solo conjunto de N observaciones; entonces, éstas se arreglan en orden, 
creciente de magnitud y se asigna un rango a cada observación comenzando con un 
rango 1 y terminando con un rango N. Cuando el rango de todas las observaciones 
está completó, se determina la suma de los rangos para cada muestra. Sea R¡ la suma 
de los rangos de lay'-ésima muestra. En esencia, la prueba de Kruskal-Wallis deter- 
mina si la disparidad entre las R¡ con respecto a los tamaños n¡ de las muestras es 
suficiente para garantizar el rechazo de la hipótesis nula. 

Bajo la suposición de que las k muestras provienen de poblaciones con distribu- 
ciones idénticas, la estadística de la prueba de Kruskal-Wallis es 



H= ,2 



N(N + 1) 



* R) 



2 



-3(N+\), (15.13) 



la que para tamaños n¡ relativamente grandes de las muestras se encuentra aproxi- 
mada, en forma adecuada, por una distribución chi-cuadrada con k - 1 grados de li- 
bertad. Para un tamaño específico del error de tipo I, la región crítica es la porción 
superior de la distribución chi-cuadrada. De acuerdo con lo anterior, se rechaza la 
hipótesis nula para valores grandes de la estadística de la prueba de Kruskal-Wallis. 
Debe notarse que la aproximación chi-cuadrada es, por lo general, satisfactoria, ex- 
cepto cuando k = 3 y ninguno de los tamaños de las muestras n¡ sea mayor que cinco. 
El procedimiento que se recomienda para manejar los empates es igual al de la 
prueba de Mann-Whitney. Si el número de empates es grande, se ha propuesto un 
factor de corrección para la estadística de pruebas dada por (15.3); véanse cuales- 
quiera de las referencias que se encuentran al final de este capítulo. A pesar de que 
esta correción siempre incrementa el valor de la estadística de prueba, en muchos ca- 
sos este efecto es despreciable, aun si existen numerosos empates. 

Ejemplo 15.4 Se tomaron muestras aleatorias independientes de casas reciente- 
mente vendidas en cuatro zonas residenciales de una gran ciudad. El problema era 
determinar si existían diferencias en las zonas con respecto al valor de la propiedad y 
el precio de venta. Los datos que figuran en la tabla 15.3 son los cocientes entre los 
precios de venta y el valor catastral de la propiedad. Para a = 0.05, empléese la 
estadística de Kruskal-Wallis para probar si estas muestras provienen de poblaciones 
con distribuciones idénticas. 

Los valores que se encuentran entre paréntesis en la tabla son los rangos 
de las observaciones después de haberlas combinado y ordenado. Nótese que 
«, = n A = 5, n 2 = n 3 = 6 yN = 22. Las sumas de los rangos de cada muestra 
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TABLA 153 Datos de la muestra para el ejemplo 15.4 



Zona residencial 

3 



1.19(15) 


1.08 (4.5) 


0.98 (2) 


1.12 (7.5) 


1.05(3) 


1.23 (17.5) 


1.19(15) 


1.14(10) 


1.14(10) V > 


1:26 (20) 


1.08 (4.5) 


1.31 (22) 


1.25 (19) 


1.10(6) 


0.93 (1) 


1.12 (7.5) 


1.29 (21) 


1.18(12.5) 


1.23(17.5) 


1.19(15) 



son /?, = 68, R 2 = 70.5, R 3 = 52.5, y R 4 = 62. Entonces el valor de la 
estadística de Kruskal-Wallis es 



A- 12 



(22)(23) 



(68) 2 (70.5) 2 (52.5) 2 (62) 2 



- 3(23) = 1.70. 



De la tabla E del apéndice, para a = 0.05 y k — 1 = 3 grados de libertad, el valor 
crítico es 7.82. Dado que h = 1.70 < 7.82, no puede rechazarse la hipótesis nula. 
Por lo tanto, no existe alguna razón para creer que existen diferencias entre las zonas 
cuando se comparan el precio de venta y el valor real de la propiedad. 



15.5 Prueba de Friedman para k muestras igualadas 

La prueba de rango de signos de Wilcoxon se considera como el equivalente no para- 
métrico del método t de Student para observaciones por pares o del procedimiento de 
análisis de varianza para experimentos con dos tratamientos en un diseño en bloque 
completamente aleatorio. Cuando es necesario investigar k s» 3 tratamientos de un 
solo factor en presencia de un factor externo y por lo menos se encuentran dispo- 
nibles mediciones ordinales, un método no paramétrico útil para determinar si los 
efectos debidos a los tratamientos son los mismos, es la prueba de Friedman. 

De manera similar al procedimiento paramétrico, se crea un bloque para cada 
una de las n condiciones de los factores externos de tal manera que cada bloque con- 
tiene una observación proveniente de cada uno de los k tratamientos. Además, se su- 
pone que los tratamientos se asignan en forma aleatoria y que no existe ninguna inte- 
racción entre los bloques y los tratamientos. Las nk observaciones se arreglan como 
se ilustra en la tabla 15.4, donde los bloques son los renglones y los tratamientos las 
columnas. 

La hipótesis nula para el procedimiento de Friedman es que los efectos atri- 
buidos a los tratamientos son los mismos (es decir, las problaciones de interés tienen 
distribuciones idénticas) y la hipótesis alternativa es que existe una diferencia entre 
los tratamientos. Al igual que para la estadística de Kruskal-Wallis, las diferencias 
en los tratamientos descubiertas a través de la estadística de Friedman implican dife- 
rencias en la tendencia central. 
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TABLA 15.4 Arreglo de las observaciones para la prueba de Friedman 

, Tratamiento • "- 

Bloque 1 2 '■■'.<■ >.•■«•, .-r / — • > * 

2 F,, K n ••• K 2; — Y u 



Al igual que en los otros procedimientos no paramétricos, la prueba de Friedman 
se basa en los rangos. Para cada bloque (renglón) se asigna un rango a las observa- 
ciones comenzando con un rango 1 y terminando con un rango k; entonces se suman 
los rangos para cada tratamiento. Se" R la suma de los rangos del y'-ésimo trata- 
miento (columna). Si dentro de cada bloque los efectos del tratamiento son los mis- 
mos, entonces para cualquier bloque los rangos deben ser una permutación aleatoria 
de los enteros del 1 al k, donde cada permutación tiene la misma probabilidad de 
ocurrencia. De esta forma, se espera que para cada tratamiento los rangos del 1 al A: 
aparezcan, en forma aproximada, con la misma frecuencia. Si los efectos de los tra- 
tamientos son idénticos, R deberá tener prácticamente el mismo valor para toda y. 
Por lo tanto, el procedimiento de Friedman determina cuándo una disparidad obser- 
vada entre los Rj es suficiente para rechazar la hipótesis nula. 

La estadística de Friedman está dada por 



*= ' 2 



nk{k + 1) 



2*j 



- 3«(/t + 1). (15.14) 



Las probabilidades para los valores de 5 se encuentran tabuladas para valores pe- 
queños de n y k (véase [3]). Pero si el número de bloques n y el de tratamientos k no 
es muy pequeño (por ejemplo «3= 10 y k 3= 4), la estadística 5 es, en forma apro- 
ximada, una variable aleatoria chi-cuadrada con k - 1 grados de libertad. Al igual 
que para la prueba de Kruskal- Wallis, la región crítica de tamaño a es la porción su- 
perior de la distribución chi-cuadrada con k - 1 grados de libertad. Se rechaza la hi- 
pótesis nula cuando el valor de S es mayor que el valor crítico. Al igual que en los ca- 
sos anteriores, los empates se manejan mediante el uso de rangos promedio. 

Ejemplo 15.5 Cuatro jueces se encargan de calificar en una competencia de salto 
que incluye a 10 finalistas. Los datos que figuran en la tabla 15.5 son las califica- 
ciones, donde un 10 indica un salto perfecto. Para a = 0.01 , empléese la estadísti- 
ca de Friedman para determinar si existen diferencias discernibles en las califica- 
ciones que otorgan cada uno de los cuatro jueces. 

Los valores que figuran entre paréntesis en la tabla 15.5 son los rangos de las ob- 
servaciones para cada competidor (bloque). Entonces, para cada juez, la suma de los 
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TABLA 15.5 Datos de la muestra para el ejemplo 15.5 









., :-,, ■■■iijíivU' 


a'C"" Juez 








Competidor 


¡ 


i 


"■■.:" ^' 2 


i 


, '. i 


t -. 


.', 4 


í; : . 


1 


8.5 


(3) 


8.6 


(4) 


8.2 


(O 


8.4 


(2) 


', 2 


■ 9.8 


(4) 


•9.7 


(3) 


9.4 


(1) 


9.6 


(2) 


3 


7.9 


(2) 


8.1 


(3) 


7.5 


(1) 


8.2 


(4) 


4 


9.7 


(3) 


9.8 


(4) 


9.6 (1.5) 


9.6 (1.5) 


5 


6.2 


(1) 


6.8 


(3) 


6.9 


(4) 


6.5 


(2) 


6 


8.9 


(3) 


9.2 


(4) 


8.1 


(1) 


8.7 


(2) 


7 


9.2 (3.5) 


9.2(3.5) 


8.7 


(1) 


8.9 


(2) 


8 


8.4(1.5) 


8.5 


(3) 


8.4(1.5) 


8.6 


(4) 


9 


9.2 


(2) 


9.6 


(4) 


8.9 


(1) 


9.5 


(3) 


10 


8.8 


(2) 


9.2 


(3) ■ 


8.6 


(1) 


9.3 


(4) 



rangos es la siguiente: /?, = 25, R 2 = 34.5, R } = 14, R 4 = 26.5. El valor de la es- 
tadística de Fiedman es 

12 [25 2 + 34.5 2 + 14 2 + 26.5 2 ] - (3)(10)(5) = 12.81. 



(10)(4)(5) 



Paraa = 0.01 y jt — 1 =3 grados de libertad, el valor crítico se obtiene de la tabla £ 
del apéndicey es igual a 11.32. Dado que s = 12.81 > 11.32, se rechaza la hipóte- 
sis nula de que los efectos de los tratamientos son los mismos; las diferencias entre 
las calificaciones que otorgan los cuatro jueces son estadísticamente discernibles. 



15.6 Coeficiente de correlación de rangos de Spearman 

En la sección 13.8 se definió el coeficiente de correlación de la muestra como una 
medida de la asociación lineal que existe entre dos variables A" y y. El enfoque 
empleado en esa sección fue paramétrico, ya que se supuso una distribución normal 
bivariada para Xy Y. En esta sección se define una popular medida no paramétrica 
de asociación cuando se emplean los rangos, que se conoce como coeficiente de 
correlación de rangos de Spearman, denotado por r s . 

Sean A y Y dos características de interés y supóngase que existe una muestra 
aleatoria de n pares que consiste sólo en los rangos de A" y y. El coeficiente de corre- 
lación del rango de Spearman es el coeficiente ordinario de correlación de la muestra 
que puede determinarse mediante el empleo, ya sea de (13.27) o (13.28), excepto que 
para este caso se emplean los rangos en lugar de las observaciones de A" y Y. Al igual 
que el coeficiente de correlación de la muestra r, el coeficiente de correlación del ran- 
go r s se define en el intervalo - 1 =s r s =£ 1 ; y mide el grado de asociación lineal 
entre los rangos de A y Y. Para las características A y y, la interpretación de r s no es 
completamente idéntica a la de r. Si se tienen disponibles observaciones de A y Y, 
entonces el coeficiente de correlación de la muestra r es una medida del grado de aso- 
ciación lineal que existe entre Xy Y. Pero si se emplean los rangos, r s mide la ten- 



15.6 Coeficiente üe correlación úe rangos ae opeumtuii do/ 






dencia de X y Y al relacionarse en forma monótona, es decir ¿ r s se encuentra cercano 
alo a -1, se sugiere una asociación monótona creciente o decreciente para X y Y. 
En cierto sentido, r s tiene un significado mayor que el de r debido a que al medir el 
grado de asociación monótona entre X y Y, r s no se encuentra restringido a des- 
cubrir sólo una asociación lineal entre estas. 

Sea (X'¡, T¡), i = 1, 2, ..., n la representación de una muestra de rangos de A* 
y Y. Entonces, de (13.28) el coeficiente de correlación de rangos de Spearman es 



Te = 



2x;y¡ 



(Hd," 



(15.15) 



2 X' 2 - 



Ix; 
/- 1 



1/2 



2y?~ 



2 17 



1/2 



Si no existen empates puede desarrollarse una relación alternativa más simple 
para (15.15) al tomar ventajas de la naturaleza del rango. Los rangos (X'¡, Y'¡) son 
arreglos de los primeros n enteros positivos. Dado que la suma de los primeros n ente- 
ros positivos es n(n + l)/2, y la suma de sus cuadrados es n(n + l)(2/i + l)/6, 



2 X¡ = 2 Y!- = n(n + l)/2 



(15.16) 



2 X' 2 = 2 r< 2 = n(n + l)(2/t + l)/6. (15.17) 

Además, dado que la relación 

2 x\y\ = [2 x; 2 + 2 ^ 2 - 2 (X - y¡) 2 ]/ 2 (i5.i8) 

es válida para cualquier valor, al sustituir (15.16) a (15.18) en (15.15) y después de al- 
gunos manejos algebraicos, se obtiene la expresión alternativa 



r, = 1 - 



62(X¡ - Y!) 2 
n(n 2 - 1) 



(15.19) 



Ejemplo 15.6 Se pide a dos catadores de vinos que clasifiquen 10 vinos tintos ligeros 
en una escala del 1 (pobre) al 10 (excelente). Se obtienen los resultados que se mues- 
tran en Ja tabla 15.6. Calcúlese el coeficiente de correlación de rangos de Spearman. 

Dado que no existen empates, puede usarse (15.19) para calcular r s . 



1 



6[(5 - 3) 2 + (2 - 4) 2 + •- + (3 - l) 2 ] 
10(100 - 1) 

lo cual sugiere una fuerte concordancia entre los dos catadores. 



= 0.73, 
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TABLA 15.6 Datos de la muestra para el ejemplo 15.6 





Catador h. 


■;■ Catador 2 


Vino 


A" y 


y 


1 


5 


3 


2: 


2 


4 


3 


8 


7 


4 


9 


6 


5 


10 


9 


6 


7 


9 


7 


1 


3 


8 


4 


6 


9 


4 


7 


10 


3 


1 



15.7 Comentarios finales 

Para los métodos presentados en este capítulo, se tienen tres ventajas: 

1 . Las suposiciones para su empleo son menos estrictas que las de los correspon- 
dientes métodos paramétricos. 

2. Los métodos no paramétricos pueden aplicarse en forma muy fácil a todas 
aquellas observaciones que se definen sobre una escala ordinal. 

3. Los cálculos por efectuar son más fáciles cuando se comparan con los de los 
correspondientes métodos paramétricos. 

A causa de la primera ventaja, los métodos paramétricos son particularmente 
útiles cuando se tienen muestras de tamaño pequeño y existe interés en adherirse a 
las suposiciones de distribución para los métodos paramétricos. En particular, las 
pruebas de Mann-Whitney, Wilcoxon, Kruskal-Wallis y de Friedman se comparan, 
en potencia, a las de los correspondientes métodos paramétricos, lo que incluye a la 
distribución t de Student o a la estadística F en el análisis de varianza, pero como ya 
se indicó en el capítulo 9, para muestras de tamaño mayor de 15, la distribución t de 
Student es bastante más robusta con respecto a la suposición de normalidad. Además, 
la estadística T es robusta con respecto a la suposición de varianzas iguales para 
muestras de gran tamaño y con el mismo número de observaciones, cuando se com- 
paran dos medias, de la misma manera en que la estadística F lo es en el análisis de 
varianza, siempre y cuando los tamaños de la muestra de los tratamientos sean los 
mismos. De esta forma, cuando se tienen muestras de gran tamaño y las observa- 
ciones contenidas en éstas se definen por lo menos sobre una escala ordinal, puede 
perderse información muy importante al convertir las observaciones en rangos y sig- 
nos y utilizar métodos no paramétricos. Para tales casos, la eficiencia en potencia de 
los métodos no paramétricos es menor que la de los procedimientos paramétricos. 
Por lo tanto, la ventaja más clara que tienen los métodos no paramétricos sobre los 
de tipo paramétrico es la segunda que se encuentra en la lista mencionada con ante- 
rioridad. La aplicación de los métodos paramétricos a observaciones que se en- 
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cuentran definidas sólo sobre una escala ordinal es muy difícil, ya que la interpreta- 
ción de un intervalo en este caso tiene poco significado. 
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Ejercicios 

15.1. Para los datos del ejemplo 15.1, pruébese la hipótesis nula de que no existe diferencia 
entre las medias mediante el empleo del procedimiento / de Student de la sección 9.6.2. 
Para el mismo tamaño del error de tipo I dado en este ejemplo, ¿es diferente la conclu- 
sión? 

15.2. Durante cinco años se llevó a cabo un estudio para determinar si existe alguna diferen- 
cia en el número de resfriados que sufren los fumadores y los no fumadores. Con base 
en muestras aleatorias de 14 no fumadores y 12 fumadores se observaron, a lo largo de 
los cinco años, los siguientes datos. 



No fumadores 



3 5 



Fumadores 



10 8 



Úsese la estadística U de Mann-Whitney para determinar si existe alguna razón para 
creer que estas muestras aleatorias provienen de poblaciones con diferentes distribu- 
ciones. Supóngase que a = 0.05. ¿Existen algunas suposiciones que se estén violando? 

15.3. Una compañía de mercadotecnia se interesa en comparar la aceptación por parte del 
consumidor de dos nuevos productos, A y B. Se seleccionaron, en forma aleatoria, 12 
consumidores y se les pidió que dieran su opinión, con respecto al producto A, sobre 
una escala de 1 (Poca aceptación) a 5 (mucha aceptación). Se hizo lo mismo para el 
producto B, empleando para ello el mismo número de consumidores. Se obtuvieron los 
siguientes datos: 

Pro ducto A | I 2 5 5 4 3 5 4 4 3 5 2 

Producto B I 2 2 I I 3 I 224313 

Mediante el empleo de la estadística í/de Mann-Whitney, determínese si puede recha- 
zarse, con a = 0.05 la hipótesis nula de que estas muestras aleatorias provienen de 
poblaciones con distribuciones idénticas. 

15.4. La siguiente información representa el número de unidades terminadas para dos traba- 
jadores, A y B, en un periodo de cinco días. 

A | 49 52 53 47 50 

B I 56 48 58 46 55 
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a) Mediante el uso de la expresión (15.7), obténgase la función de probabilidad para el 
número de tendencias posible. 

b) Para a = 0.05, empléese el procedimiento de tendencias de Wald-Wolfowitz para 
probar la hipótesis nula de que estas muestras provienen de distribuciones idénticas. 

15.5. El procedimiento de tendencias de Wald-Wolfowitz se emplea muchas veces para pro- 
bar la aleatoriedad de una secuencia dada de observaciones. Si la aleatoriedad existe, 
entonces el número de tendencias para dos grupos distintos no deberá ser ni muy gran- 
de ni muy pequeño. Supóngase que los siguientes datos constituyen la secuencia de 
residuos para una ecuación de regresión estimada: 



2.98 


-4.19 


-0.51 


5.19 


2.38 


6.73 


0.93 


1.29 


-3.18 


1.14 


-0.54 


-2.76 


-1.89 


-4.28 


-0.18 


0.32 


0.48 


1.48 


2.43 


-4.69 


3.18 


0.64 


0.89 


2.08 


0.98 


-3.28 





¿Existe alguna razón para creer que esta secuencia de residuos no es aleatoria? Úsese 
a = 0.05. 

15.6. Una compañía de mercadotecnia se interesa en la preferencia del consumidor con res- 
pecto a dos marcas de refresco que compiten entre sí. Se seleccionan, en forma aleato- 
ria, 14 personas y se les pide que clasifiquen las bebidas mediante una escala del 1 
(poca aceptación) al 10 (mucha aceptación). El orden en la selección de la bebida fue 
aleatorio. Se obtiene la siguiente información: 



Persona 


/ 


2 


3 


4 


5 


6 


7 


8 


9 


10 


// 


12 


13 


14 


Marca A 
Marca B 


7 
3 


5 
2 


9 

7 


4 
6 


8 
9 


10 
3 


4 
5 


3 
1 


7 
4 


2 
2 


8 
4 


6 

7 


6 
5 


9 

4 



Mediante el uso de la prueba del signo, ¿se tiene alguna razón para creer que existe una 
diferencia en la preferencia para estos dos refrescos? Supóngase a = 0. 1 . 

15.7. Para los datos que figuran en el ejercicio 15.6, empléese la prueba de rangos de signos 
de Wilcoxon. ¿Se obtienen las mismas conclusiones? 

15.8. Para los datos del ejemplo 9.10, supóngase que no puede formularse la suposición de 
normalidad. Mediante el empleo de la prueba de rangos de signos de Wilcoxon, 
determínese si puede rechazarse la correspondiente hipótesis nula no paramétrica para 
un nivel a = 0.01 

15.9. Durante 12 días seleccionados al azar, dos tiendas, A y B vendieron el siguiente núme- 
ro de unidades del mismo producto: 



Día 


/ 


2 


3 


4 


5 


6 


7 


8 


9 


10 


// 


12 


A 


42 


58 


47 


39 


41 


56 


59 


37 


38 


46 


43 


51 


B 


64 


57 


48 


59 


64 


52 


65 


59 


37 


65 


68 


49 



Mediante el empleo de la prueba del signo, ¿puede rechazarse la hipótesis nula de que 
las muestras provienen de distribuciones idénticas para un nivel a = 0.05? 

15.10. Para los datos que figuran en el ejercicio 15.9, ús'ese la prueba de rangos de signos de 
Wilcoxon y compárense los resultados. 

15.11. Se desea determi nar si el campo de especialización del estudiante no graduado tiene al- 
gún efecto sobre su desempeño en una escuela de leyes. Se toma una muestra aleatoria 
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TABLA 15.7 


Datos de la muestra para el ejemplo 15.11 ■ 


: :v;-f«íflí>f?$;0-.:.-:. í 


Finanzas 


Ciencia o ... 
ingeniería 


-' - .;, ; .'....7?3Írí.rr-yjy.'i- ; 
Artes liberales 


í.'iirM'rewbiíibiwV".'' 
Oíros 


9 


. , .„ 


". ".''.2'" ■'"'."'"' 


14 


22 


7 


4 


■-.' V M : - r ' ' 


24 


10 


■ \ 15 


.. 48., , c(í . ■ 


31 


18 


26 


..■ -52 ,,,,, ., 


47 


23 


38 


59 


65 


25 


43 


63 






45 


67 ... 






49 


72 






55 


79 



15.12. 



de 30 estudiantes de una clase de graduados de cierta escuela de leyes, la cual clasifica a 
los estudiantes y anota su campo de especialización; los datos que se encuentran en la 
tabla 15.7 son los resultados de este procedimiento. Mediante el empleo de la prueba 
de Kruskal-Wallis, determínese si el campo de especialización tiene algún efecto sobre 
el desempeño en la escuela de leyes, con a = 0.05. 

Con referencia a los datos que se encuentran en el ejercicio 12.7, empléese el procedi- 
miento de Kruskal-Wallis para probar la hipótesis nula de que no existe ninguna dife- 
rencia con respecto a la durabilidad entre las dos marcas con a = 0.05. La conclu- 
sión, ¿es la misma que la que se obtuvo para el ejercicio 12.7? 



15.13. Se seleccionaron 12 estudiantes al azar, de una clase muy grande; sus calificaciones, en 
los cuatro exámenes que se llevaron a cabo durante el trimestre, se encuentran en la 
tabla 15.8. Mediante el uso de la prueba de Friedman, determínese si las diferencias 
entre los cuatro exámenes son estadísticamente discernibles para un nivel a = 0.01. 
¿Se estaría de acuerdo con la hipótesis de que no existe interacción alguna entre los es- 
tudiantes? Coméntese. 



TABLA 15.8 Datos de la muestra para el ejercicio 15.13 



Estudiante 


/ 


2 


3 


4 


1 


72 


68 


80 


75 


2 


89 


87 


78 


92 


3 


48 


56 


64 


58 


4 


65 


76 


70 


62 


5 


86 


94 


93 


85 


6 


56 


73 


78 


87 


7 


75 


84 


65 


69 


8 


39 


45 


48 


56 


9 


78 


67 


69 


59 


10 


98 


87 


86 


95 


II 


64 


87 


92 


48 


12 


82 


76 


85 


79 
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15.14. Con referencia a los datos del ejercicio 12.6, úsese el procedimiento de Friedman para 
determinar si las diferencias que existen entre los cuatro supermercados son 
estadísticamente discernibles para un nivel a * 0.01. 

15.15. Para el ejercicio 13.12, conviértanse los datos en rangos y calcúlese el coeficiente de 
con-elación de rangos de Spearman. 

15.16. Dos jueces se encargan de calificar a ocho patinadores que patinan sobre hielo, me- 
diante el empleo de una escala del 1 (muy malo) al 10 (el mejor). Se obtienen los si- 
guiente resultados. 



Patinador 


1 


2 


i 


4 


5 


6 


7 


8 


Juez 1 


3 


4 


8 


8 


4 


6 


4 


7 


Juez 2 


2 


4 


9 


7 . 


. 2 


8 


7 


9 



Calcúlese el coeficiente de correlación de rangos de Spearman y formúlese un comenta- 
rio con respecto a si existe una relación que sea evlJen... 

15.17. Mediante el empleo de la misma escala que se menciona en el ejercicio 15.16, dos jueces 
califican el talento de las 10 semifinalistas del concurso señorita América. Se tienen los 
siguientes resultados: 



Sem ¡finalista 


1 


2 


i 


4 


5 


6 


7 


8 


9 


10 


Juez 1 


2 


6 


5 


9 


3 


1 


9 


2 


6 


2 


Juez 2 


7 


1 


4 


4 


8 


9 


3 


9 


10 


8 



Calcúlese el coeficiente de correlación de rangos de Spearman y formúlese un comenta- 
rio con respecto a si existe alguna relación que sea evidente. 

15.18. Un grupo de analistas de inversión clasificaron 10 compañías de acuerdo con su creci- 
miento potencial y el valor de sus acciones de la siguiente manera: 



Compañía 


/ 


2 


3 


4 


5 


6 


7 


8 


9 


10 


Valores en libros 
Crecimiento 


8 
4 


3 
8 


lü 
6 


1 

5 


6 
9 


2 
3 


5 
7 


7 
1 


4 
10 


9 

2 



Calcúlese el coeficiente de correlación de rangos de Spearman y formúlese un comenta- 
rio con respecto a si existe una relación, que sea evidente, entre el valor de las acciones 
de la compañía y su crecimiento potencial. 
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TABLA F Valores de cuantiles de la distribución t de Student 

^ ; V PiT < r,- ar ) - ^t!^ /""" [1 + O'MV^'dt = 1 - a 
\ \irpl(v/2)J-' 




1 — a,¡> 



k.OOS 



'0.023 



•0.030 



1 


-318.309 


-63.657 


-31.821 


- 12.706 


-6.314 


-3.078 


-1.376 


2 


-22.327 


-9.925 


-6.965 


-4.303 


-2.920 


-1.886 


-1.061 


3 


-10.215 


-5.841 


-4.541 


-3.182 


-2.353 


-1.638 


-0.978 


4 


-7.173 


-4.604 


-3.747 


-2.776 


-2.132 


-1.533 


-0.941 


5 


-5.893 


-4.032 


-3.365 


-2.571 


-2.015 


- 1.476 


-0.920 


6 


-5.208 


-3.707 


-3.143 


-2.447 


-1.943 


-1.440 


-0.906 


7 


-4.785 


-3.499 


-2.998 


-2.365 


-1.895 


-1.415 


-0.8% 


8 


-4.501 


-3.355 


-2.8% 


-2.306 


-1.860 


-1.397 


-0.889 


9 


-4.297 


-3.250 


-2.821 


-2.262 


-1.833 


-1.383 


-0.883 


10 


-4 ; 144 . 


-3.169 


-2.764 


-2.228 


-1.812 


-1.372 


-0.879 


11 


-4.025 


-3:106 


-2.718 


-2.201 


-1.7% 


-1.363 


-0.876 


12 


-3.930 


-3.055 


-2.681 


-2.179 


-1.782 


-1.356 


-0.873 


13 


-3.852 


-3.012 


-2.650 


-2.160 


-1.771 


-1.350 


-0.870 


14 


-3.787 


-2.977 


-2.624 


-2.145 


-1.761 


-1.345 


-0.868 


15 


-3.733 


-2.947 


-2.602 


-2.131 


-1.753 


-1.341 


-0.866 


16 


-3.686 


-2.921 


-2.583 


-2.120 


-1.746 


-1.337 


-0.865 


17 


-3.646 


-2.898 


-2.567 


-2.110 


-1.740 


-1.333 


-0.863 


18 


-3.610 


-2.878 


-2.552 


-2.101 


-1.734 


-1.330 


-0.862 


19 


-3.579 


-2.861 


-2.539 


-2.093 


-1.729 


-1.328 


-0.861 


20 


-3.552 


-2.845 


-2.528 


-2.086 


-1.725 


-1.325 


-0.860 


21 


-3.527 


-2.831 


-2.518 


-2.080 


-1.721 


-1.323 


-0.859 


22 


-3.505 


-2.819 


-2.508 


-2.074 


-1.717 


-1.321 


-0.858 


23 


-3.485 


-2.807 


-2.500 


-2.069 


-1.714 


-1.319 


-0.858 


24 


-3.467 


- 2.797 


-2.492 


-2.064 


-1.711 


-1.318 


-0.857 


25 


-3.450 


-2.787 


-2.485 


-2.060 


-1.708 


-1.316 


-0.856 


26 


-3.435 


-2.779 


-2.479 


-2.056 


-1.706 


-1.315 


-0.856 


27 


-3.421 


-2.771 


-2.473 


-2.052 


-1.703 


-1.314 


-0.855 


28 


-3.408 


- 2.763 


-2.467 


-2.048 


-1.701 


-1.313 


-0.855 


29 


-3.396 


-2.756 


-2.462 


-2.045 


-1.699 


-1.311 


-0.854 


30 


-3.385 


-2.750 


-2.457 


-2.042 


-1.697 


-1.310 


-0.854 


35 


- 3.340 


-2.724 


-2.438 


-2.030 


-1.690 


-1.306 


-0.852 


40 


-3.307 


-2.704 


-2.423 


-2.021 


-1.684 


-1.303 


-0.851 


45 


-3.281 


-2.690 


-2.412 


-2.014 


-1.679 


-1.301 


-0.850 


50 


-3.261 


- 2.678 


-2.403 


-2.009 


-1.676 


-1.299 


-0.849 


60 


-3.232 


-2.660 


-2.390 


-2.000 


-1.671 


-1.2% 


-0.848 


70 


-3.211 


-2.648 


-2.381 


-1.994 


-1.667 


-1.294 


-0.847 


80 


-3.195 


- 2.639 


-2.374 


-1.990 


-1.664 


-1.292 


-0.846 


90 


-3.183 


-2.632 


-2.369 


-1.987 


-1.662 


-1.291 


-0.846 


100 


-3.174 


- 2.626 


-2.364 


-1.984 


-1.660 


-1.290 


-0.845 


200 


-3.131 


-2.601 


-2.345 


-1.972 


-1.652 


-1.286 


-0.843 


500 


( -3.107 


-2.586 


-2.334 


-1.965 


-1.648 


-1.283 


-0.842 


1000 


-3.098 


-2.581 


-2.330 


-1.962 


-1.646 


-1.282 


-0.842 
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TABLA F (continuación) Valores de cuantiles.de la distribución / de Student 



V 


'0.800 f 


■ ' ■ 'o.900 


' 4).950 


'0.975 


'0.990 


'0.995 


'0.999 


1 


1.376 


3.078 


6.314 , 


.. 12.706 


31.820 


63.656 


318.294 


2 


1.061 


1.886 


2.920 


1 ,4.303 


6.965 


9.925 


22.327 


3 


0.978 


1.638 


2.353 


3.182 


4.541 


5.841 


10.214 


4 


0.94K 


1.533 


2.132 


2.776 


3.747 


4.604 


.7.173 


5 


0.920 


1.476 


2.015 


2.571 


3.365 


4.032 


5.893 


6 


0.906 


1.440 


1.943 


2.447 


3.143 


3.707 


5.208 


7 


0.896 


1.415 


1.895 


2.365 


2.998 


3.499 


4.785 


8 


0.889 


1.397 


1.860 


2.306 


2.896 


3.355 


4.501 


9 


0.883 


1.383 


1.833 


' 2.262 


2.821 


3.250 


4.297 


10 


0.879 


1.372 


1.812 


2.228 


2.764 


3.169 


4.144 


11 


0.876 


1.363 


1.796 


2.201 


2.718 


3.106 


4.025 


12 


0.873 


Ü356 


1.782 


2.179 


2.681 


3.055 


3.930 


13 


0.870 


1.350 


1.771 


2.160 


2.650 


3.012 


3.852 


14 


0.868 


1.345 


1.761 


2.145 


2.624 


2.977 


3.787 


15 


0.866 


1.341 


1.753 


2.131 


2.602 


2.947 


3.733 


16 


0.865 


1.337 


1.746 


2.120 


2.583 


2.921 


3.686 


17 


0.863 


1.333 


1.740 


2.110 


2.567 


2.898 


3.646 


18 


0.862 


1.330 


1.734 


2.101 


2.552 


2.878 


3.ol0 


19 


0.861 


1.328 


1.729 


2.093 


2.539 


2.861 


3.579 


20 


0.860 


1.325 


1.725 


2.086 


2.528 


2.845 


3.552 


21 


0.859 


1.323 


1.721 


2.080 


2.518 


2.831 


3.527 


22 


0.858 


1.321 


1.717 


2.074 


2.508 


2.819 


3.505 


23 


0.858 


1.319 


1.714 


2.069 


2.500 


2.807 


3.485 


24 


0.857 


1.318 


1.711 


2.064 


2.492 


2.797 


3.467 


25 


0.856 


1.316 


1.708 


2.060 


2.485 


2.787 


3.450 


26 


0.856 


1.315 


1.706 


2.056 


2.479 


2.779 


3.435 


27 


0.855 


1.314 


1.703 


2.052 


2.473 


2.771 


3.421 


28 


0.855 


1.313 


1.701 


2.048 


2.467 


2.763 


3.408 


29 


0.854 


1.311 


1.699 


2.045 


2.462 


2.756 


3.396 


30 


0.854 


1.310 


1.697 


2.042 


2.457 


2.750 


3.385 


35 


0.852 


1.306 


1.690 


2.030 


2.438 


2.724 


3.340 


40 


0.851 


1.303 


1.684 


2.021 


2.423 


2.704 


3.307 


45 


0.850 


1.301 


1.679 


2.014 


2.412 


2.690 


3.281 


50 


0.849 


1.299 


1.676 


2.009 


2.403 


2.678 


3.261 


60 


0.848 


1.296 


1.671 


2.000 


2.390 


2.660 


3.232 


70 


0.847 


1.294 


1.667 


1.994 


2.381 


2.648 


3.211 


80 


0.846 


1.292 


1.664 


1.990 


2.374 


2.639 


3.195 


90 


0.846 


1.291 


1.662 


1.987 


2.368 


2.632 


3.183 


100 


0.845 


1.290 


1.660 


1.984 


2.364 


2.626 


3.174 


200 


0.843 


1.286 


1.652 


1.972 


2.345 


2.601 


3.131 


500 


0.842 


1.283 


1.648 


1.965 


2.334 


2.586 


3.107 


1000 


0.842 


1.282 


1.646 


1.962 


2.330 


2.581 


3.098 



TABLA G Valores de cuantiles de la distribución F 






1 ^'-"-W n»»i/2)r(.ft¿2)¿;3 

















-A-2Í 


¡í— 


-$?j.j 


-2)/2 


(v 2 




viíVi^V-.«*..>*Í 








«~~, 


7tvT- 


+ 


V/)^'+ v i)/ 2 


¿i 


= 


1 - 


a 



«'2 










1 - a = 0.9 



»», = grados de libertad del numerador 

3.4 56 7 8 



10 



1 


39.86 


49.50 


53.59 


55.83 


57.24 


58.20 


58.91 


59.44 


59.86 


60.19 


2 


8.53 


9.00 


9.16 


9.24 


9.29 


9.33 


9.35 


9.37 


9.38 


9.39 


3 


5.54 


5.46 


5.39 


5.34 


5.J1 


5.28 


5.27 


5.25 


5.24 


5.23 


4 


4.54 


4.32 


4.19 


4.11 


4.05 


4.01 


3.98 


3.95 


3.94 


3.92 


5 


4.06 


3.78 


3.62 


3.52 


3.45 


3.40 


3.37 


3.34 


3.32 


3.30 


6 


3.78 


3.46 


3.29 


3.18 


3.11 


3.05 


3.01 


2.98 


2.% 


2.94 


7 


3.59 


3.26 


3.07 


2.% 


2.88 


2.83 


2.79 


2.75 


2.72 


2.70 


8 


3.46 


3.11 


2.92 


2.81 


2.73 


2.67 


2.62 


2.59 


2.56 


2.54 


9 


3.36 


3.01 


2.81 


2.69 


2.61 


2.55 


2.51 


2.47 


2.44 


2.42 


10 


3.29 


2.92 


2.73 


2.61 


2.52 


2.46 


2.41 


2.38 


2.35 


2.32 


11 


3.23 


2.86 


2.66 


2.54 


2.45 


2.39 


2.34 


2.30 


2.27 


2.25 


12 


3.18 


2.81 


2.61 


2.48 


2.39 


2.33 


2.28 


2.24 


2.21 


2.19 


13 


3.14 


2.76 


2.56 


2.43 


2.35 


2.28 


2.23 


2.20 


2.16 


2.14 


14 


3.10 


2.73 


2.52 


2.39 


2.31 


2.24 


2.19 


2.15 


2.12 


2.10 


15 


3.07 


2.70 


2.49 


2.36 


2.27 


2.21 


2.16 


2.12 


2.09 


2.06 


16 


3.05 


2.67 


2.46 


2.33 


2.24 


2.18 


2.13 


2.09 


2.06 


2.03 


17 


3.03 


2.64 


2.44 


2.31 


2.22 


2.15 


2.10 


2.06 


2.03 


2.00 


18 


3.01 


2.62 


2.42 


2.29 


2.20 


2.13 


2.08 


2.04 


2.00 


1.98 


19 


2.99 


2.61 


2.40 


2.27 


2.18 


2.11 


2.06 


2.02 


1.98 


1.% 


20 


2.97 


2.59 


2.38 


2.25 


2.16 


2.09 


2.04 


2.00 


1.% 


1.94 


21 


2.96 


2.57 


2.36 


2.23 


2.14 


2.08 


2.02 


1.98 


1.95 


1.92 


22 


2.95 


2.56 


2.35 


2.22 


2.13 


2.06 


2.01 


1.97 


1.93 


1.90 


23 


2.94 


2.55 


2.34 


2.21 


2.11 


2.05 


1.99 


1.95 


1.92 


1.89 


24 


2.93 


2.54 


2.33 


2.19 


2.10 


2.04 


1.98 


1.94 


1.91 


1.88 


25 


2.92 


2.53 


2.32 


2.18 


2.09 


2.02 


1.97 


1.93 


1.89 


1.87 


26 


2.91 


2.52 


2.31 


2.17 


2.08 


2.01 


1.% 


1.92 


1.88 


1.86 


27 


2.90 


2.51 


2.30 


2.17 


2.07 


2.00 


1.95 


1.91 


1.87 


1.85 


28 


2.89 


2.50 


2.29 


2.16 


2.06 


2.00 


1.94 


1.90 


1.87 


1.84 


29 


2.89 


2.50 


2.28 


2.15 


2.06 


1.99 


1.93 


1.89 


1.86 


1.83 


30 


2.88 


2.49 


2.28 


2.14 


2.05 


1.98 


1.93 


1.88 


1.85 


1.82 


35 


2.85 


2.46 


2.25 


2.11 


2.02 


1.95 


1.90 


1.85 


1.82 


1.79 


40 


2.84 


2.44 


2.23 


2.09 


2.00 


1.93 


1.87 


1.83 


1.79 


1.76 


50 


2.81 


2.41 


2.20 


2.06 


1.97 


1.90 


1.84 


1.80 


1.76 


1.73 


60 


2.79 


2.39 


2.18 


2.04 


1.95 


1.87 


1.82 


1.77 


1.74 


1.71 


80 


2.77 


2.37 


2.15 


2.02 


1.92 


1.85 


1.79 


1.75 


1.71 


1.68 


100 


2.76 


2.36 


2.14 


2.00 


1.91 


1.83 


1.78 


1.73 


1.69 


1.66 


200 


2.73 


2.33 


2.11 


1.97 


1.88 


1.80 


1.75 


1.70 


1.66 


1.63 


500 


2.72 


2.31 


2.09 


1.96 


1.86 


1.79 


1.73 


1.68 


1.64 


1.61 


1000 


2.71 


2.31 


2.09 


1.95 


1.85 


1.78 


1.72 


1.68 


1.64 


1.61 
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TABLA G (continuadón) Valores de cuantiles de la distribución F 











1 


-a = 


01 ,7 


...V. ', 














"i = 


grados de libertad del numerador 








"J 


11 


12 


15 


20 


25 


; ,Vl';30 


40 


50 


100 


1000 


1 


60.47 


60.71 


61.22 


61.74 


62:06 


; 62.26 


62.53 


62.69 


63.00 


63.29 


2 


9.40 


9.41 


9.42 


9.44 


9.45 


9.46 


9.47 


9.47 


9.48 


9.49 


3 


5.22 


5.22 


5.20 


5.19 


5.17 


5.17 


5.16 


5.15 


5.14 


5.13 


4 


3.91 


3.90 


3.87 


3.84 


3.83 


3.82 


3.80 


3.80 


3.78 


3.76 


5 


3.28 


3.27 


3.24 


3.21 


3.19 


3.17 


3.16 


3.15 


3.13 


3.11 


6 


2.92 


2.90 


2.87 


2.84 


2.81 


2.80 


2.78 


2.77 


2.75 


2.72 


7 


2.68 


2.67 


2.63 


2.59 


2.57 


2.56 


2.54 


2.52 


2.50 


2.47 


8 


2.52 


2.50 


2.46 


2.42 


2.40 


2.38 


2.36 


2.35 


2.32 


2.30 


9 


2.40 


2.38 


2.34 


2.30 


2.27 


2.25' 


2.23 


2.22 


2.19 


2.16 


10 


2.30 


2.28 


2.24 


2.20 


2.17 


2.16 


2.13 


2.12 


2.09 


2.06 


11 


2.23 


2.21 


2.17 


2.12 


2 10 


2.08 


2.05 


2.04 


2.00 


1.98 


12 


2.17 


2.15 


2.10 


2.06 


2.03 


2.01 


1.99 


1.97 


1.94 


1.91 


13 


2.12 


2.10 


2.05 


2.01 


1.98 


1.96 


1.93 


1.92 


1.88 


1.85 


14 


2.07 


2.05 


2.01 


1.96 


1.93 


1.91 


1.89 


1.87 


1.83 


1.80 


15 


2.04 


2.02 


1.97 


1.92 


1.89 


1.87 


1.85 


1.83 


1.79 


1.76 


16 


2.01 


1.99 


1.94 


1.89 


1.86 


1.84 


1.81 


1.79 


1.76 


1.72 


17 


1.98 


1.96 


1.91 


1.86 


1.83 


1.81 


1.78 


1.76 


1.73 


1.69 


18 


1.95 


1.93 


1.89 


1.84 


1.80 


1.78 


1.75 


1.74 


1.70 


1.66 


19 


, 1.93 


1.91 


1.86 


1.81 


1.78 


1.76 


1.73 


1.71 


1.67 


1.64 


20 


; 1.91 


1.89 


1.84 


1.79 


1.76 


1.74 


1.71 


1.69 


1.65 


1.61 


21 


1.90 


1.87 


1.83 


1.78 


1.74 


1.72 


1.69 


1.67 


1.63 


1.59 


22 


1.88 


1.86 


1.81 


1.76 


1.73 


1.70 


1.67 


1.65 


1.61 


1.57 


23 


1.87 


1.84 


1.80 


1.74 


1.71 


1.69 


1.66 


1.64 


1.59 


1.55 


24 


1.85 


1.83 


1.78 


1.73 


1.70 


1.67 


1.64 


1.62 


1.58 


1.54 


25 


1.84 


1.82 


1.77 


1.72 


1.68 


1.66 


1.63 


1.61 


1.56 


1.52 


26 


1.83 


1.81 


1.76 


1.71 


1.67 


1.65 


1.61 


1.59 


1.55 


1.51 


27 


1.82 


1.80 


1.75 


1.70 


1.66 


1.64 


1.60 


1.58 


1.54 


1.50 


28 


1.81 


1.79 


1.74 


1.69 


1.65 


1.63 


1.59 


1.57 


1.53 


1.48 


29 


1.80 


1.78 


1.73 


1.68 


1.64 


1.62 


1.58 


1.56 


1.52 


1.47 


30 


1.79 


1,77 


1.72 


1.67 


1.63 


1.61 


1.57 


1.55 


1.51 


1.46 


35 


1.76 


1.74 


1.69 


1.63 


1.60 


1.57 


1.53 


1.51 


1.47 


1.42 


40 


1.74 


1.71 


1.66 


1.61 


1.57 


1.54 


1.51 


1.48 


1.43 


1.38 


50 


1.70 


1.68 


1.63 


1.57 


1.53 


1.50 


1.46 


1.44 


1.39 


1.33 


60 


1.68 


1.66 


1.60 


1.54 


1.50 


1.48 


1.44 


1.41 


1.36 


1.30 


80 


1.65 


1.63 


1.57 


1.51 


1.47 


1.44 


1.40 


1.38 


1.32 


1.25 


100 


1.64 


1.61 


1.56 


1.49 


1.45 


1.42 


1.38 


1.35 


1.29 


1.22 


200 


1.60 


1.58 


1.52 


1.46 


1.41 


1.38 


1.34 


1.31 


1.24 


1.16 


500 


1.58 


1.56 


1.50 


1.44 


1.39 


1.36 


1.31 


1.28 


1.21 


1.11 


1000 


1.58 


1.55 


1.49 


1.43 


1.38 


1.35 


1.30 


1.27 


1.20 


1.08 
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TABLA G (continuación) Valores de cuantiles de la distribución F 














1 


-o = 0.95 
















Vt = 


grados de libertada 'numerador 








"2 


1 


2 


3 


4 


5^ 


6^- 


T' 


8 '\ 


9 • 


10 


1 


161.45 


199.50 


215.71 


224.58 


230.16 


233.99 


236.T? 


238.88^' 


240.54 


241.88 


2 


18.51 


19.00 


19.16 


19.25 


19.30 


19.33 


19.35 


19.37 


19.38 


19.40 


3 


10.13 


9.55 


9.28 


9.12 


9.01 


8.94 


8.89 


8.85 


8.81 


8.79 


4 


7.71 


6.94 


6.59 


6.39 


6.26 


6.16 


6.09 


6.04 


6.00 


5.97 


! 5 


6.61 


5.79 


5.41 


5.19 


5.05 


4.95 


4.88 


4.82 


4.77 


4.73 


6 


5.99 


5.14 


4.76 


4.53 


4.39 


4.28 


4.21 


4.15 


4.10 


4.06 


7 


5.59 


4.74 


4.35 


4.12 


3.97 


3.87 


3.79 


3.73 


3.68 


3.64 


8 


5.32 


4.46 


4.07 


3.84 


3.69 


3.58 


3.50 


3.44 


3.39 


3.35 


9 


5.12 


4.26 


3.86 


3.63 


3.48 


3.37 


3.29 


3.23 


3.18 


3.14 


10 


4.% 


4.10 


3.71 


3.48 


3.33 


3.22 


3.14 


3.07 


3.02 


2.98 


11 


4.84 


3.98 


3.59 


3.36 


3.20 


3.09 


3.01 


2.95 


2.90 


2.85 


12 


4.75 


3.89 


3.49 


3.26 


3.11 


3.00 


2.91 


2.85 


2.80 


2.75 


13 


4.67 


3.81 


3.41 


3.18 


3.03 


2.92 


2.83 


2.77 


2.7i 


2.67 


14 


4.60 


3.74 


3.^4 


3.11 


2.% 


2.85 


2.76 


2.70 


2.65 


2.60 


15 


4.54 


3.68 


3.29 


3.06 


2.90 


2.79 


2.71 


2.64 


2.59 


2.54 


16 


4.49 


3.63 


3.24 


3.01 


2.85 


2.74 


2.66 


2.59 


2.54 


2.49 


17 


4.45 


3.59 


3.20 


2.% 


2.81 


2.70 


2.61 


2.55 


2.49 


2.45 


18 


4.41 


3.55 


3.16 


2.93 


2.77 


2.66 


2.58 


2.51 


2.46 


2.41 


19 


4.38 


3.52 


3.13 


2.90 


2.74 


2.63 


2.54 


2.48 


2.42 


2.38 


20 


4.35 


3.49 


3.10 


2.87 


2.71 


2.60 


2.51 


2.45 


2.39 


2.35 


21 


4.32 


3.47 


3.07 


2.84 


2.68 


2.57 


2.49 


2.42 


2.37 


2.32 


22 


4.30 


3.44 


3.05 


2.82 


2.66 


2.55 


2.46 


2.40 


2.34 


2.30 


23 


4.28 


3.42 


3.03 


2.80 


2.64 


2.53 


2.44 


2.37 


2.32 


2.27 


24 


4.26 


3.40 


3.01 


2.78 


2.62 


2.51 


2.42 


2.36 


2.30 


2.25 


25 


4.24 


3.39 


2.99 


2.76 


2.60 


2.49 


2.40 


2.34 


2.28 


2.24 


26 


4.23 


3.37 


2.98 


2.74 


2.59 


2.47 


2.39 


2.32 


2.27 


2.22 


27 


4.21 


3.35 


2.% 


2.73 


2.57 


2.46 


2.37 


2.31 


2.25 


2.20 


28 


4.20 


3.34 


2.95 


2.71 


2.56 


2.45 


2.36 


2.29 


2.24 


2.19 


29 


4.18 


3.33 


2.93 


2.70 


2.55 


2.43 


2.35 


2.28 


2.22 


2.18 


30 


4.17 


3.32 


2.92 


2.69 


2.53 


2.42 


2.33 


2.27 


2.21 


2.16 


35 


4.12 


3.27 


2.87 


2.64 


2.49 


2.37 


2.29 


2.22 


2.16 


2.11 


40 


4.08 


3.23 


2.84 


2.61 


2.45 


2.34 


2.25 


2.18 


2.12 


2.08 


50 


4.03 


3.18 


2.79 


2.56 


2.40 


2.29 


2.20 


2.13 


2.07 


2.03 


60 


4.00 


3.15 


2.76 


2.53 


2.37 


2.25 


2.17 


2.10 


2.04 


1.99 


80 


3.% 


3.11 


2.72 


2.49 


2.33 


2.21 


2.13 


2.06 


2.00 


1.95 


100 


3.94 


3.09 


2.70 


2.46 


2.31 


2.19 


2.10 


2.03 


1.97 


1.93 


200 


3.89 


3.04 


2.65 


2.42 


2.26 


2.14 


2.06 


1.98 


1.93 


1.88 


500 


3.86 


3.01 


2.62 


2.39 


2.23 


2.12 


2.03 


1.96 


1.90 


1.85 


1000 


3.85 


3.01 


2.61 


2.38 


2.22 


2.11 


2.02 


1.95 


1.89 


1.84 
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TABLA G (continuación) Valores de cuantiles de la distribución # 











1 


-a =. 0.95 
















"i = 


grados de libertad del numerador 








"2 


11 


12 


15 


20' 


25 


30 


40 


50 


100 


1000 


1 


242.98 


243.91 


245.% 


248.01 


249.26 


250.08 


251.15 


251.77, 


253.01 


254.17 


2 


19.40 


19.41 


19.43 


19.45 


19.46 


19.46 


19.47 


19.48 


19.49 


19.50 


3 


8.76 


8.74 


8.70 


8.66 


8.63 


8.62 


8.59 


8.58 


8.55 


8.53 


4 


5.94 


5.91 


5.86 


5.80 


5.77 


5.74 


5.72 


5.70 


5.66 


5.63 


5 


4.70 


4.68 


4.62 


4.56 


4.52 


4.50 


4.46 


4.44 


4.41 


4.37 


6 


4.03 


4.00 


3.94 


3.87 


3.84 


3.81 


3.77 


3.75 


3.71 


3.67 


7 


3.60 


3.57 


3.51 


3.44 


3.40 


3.38 


3.34 


3.32 


3.27 


3.23 


8 


3.31 


3.28 


3.22 


3.15 


3.11 


3.08 


3.04 


3.02 


2.97 


2.93 


9 


3.10 


3.07 


3.01 


2.94 


2.89 


2.86 


2.83 


2.80 


2.76 


2.71 


10 


2.94 


2.91 


2.85 


2.77 


2.73 


2.70 


2.66 


2.64 


2.59 


2.54 


11 


2.82 


2.79 


2.72 


2.65 


2.60 


2.57 


2.53 


2.51 


2.46 


2.41 


12 


2.72 


2.69 


2.62 


2.54 


2.50 


2.47 


2.43 


2.40 


2.35 


2.30 


13 


2.63 


2.60 


2.53 


2.46 


2.41 


2.38 


2.34 


2.31 


2.26 


2.21 


14 


2.57 


2.53 


2.46 


2.39 


2.34 


2.31 


2.27 


2.24 


2.19 


2.14 


15 


2.51 


2.48 


2.40 


2.33 


2.28 


2.25 


2.20 


2.18 


2.12 


2.07 


16 


2.46 


2.42 


2.35 


2.28 


2.23 


2.19 


2.15 


2.12 


2.07 


2.02 


17 


2.41 


2.38 


2.31 


2.23 


2.18 


2.15 


2.10 


2.08 


2.02 


1.97 


18 


2.37 


2.34 


2.27 


2.19 


2.14 


2.11 


2.06 


2.04 


1.98 


1.92 


19 


2.34 


2.31 


2.23 


2.16 


2.11 


2.07 


2.03 


2.00 


1.94 


1.88 


20 


2.31 


2.28 


2.20 


2.12 


2.07 


2.04 


1.99 


1.97 


1.91 


1.85 


21 


2.28 


2.25 


2.18 


2.10 


2.05 


2.01 


1.96 


1.94 


1.88 


1.82 


22 


2.26 


2.23 


2.15 


2.07 


2.02 


1.98 


1.94 


1.91 


1.85 


1.79 


23 


2.24 


2.20 


2.13 


2.05 


2.00 


1.% 


1.91 


1.88 


1.82 


1.76 


24 


2.22 


2.18 


2.11 


2.03 


1.97 


1.94 


1.89 


1.86 


1.80 


1.74 


25 


2.20 


2.16 


2.09 


2.01 


1.96 


1.92 


1.87 


1.84 


1.78 


1.72 


26 


2.18 


2.15 


2.07 


1.99 


1.94 


1.90 


1.85 


1.82 


1.76 


1.70 


27 


2.17 


2.13 


2.06 


1.97 


1.92 


1.88 


1.84 


1.81 


1.74 


1.68 


28 


2.15 


2.12 


2.04 


1.96 


1.91 


1.87 


1.82 


1.79 


1.73 


1.66 


29 


2.14 


2.10 


2.03 


1.94 


1.89 


1.85 


1.81 


1.77 


1.71 


1.65 


30 


2.13 


2.09 


2.01 


1.93 


1.88 


1.84 


1.79 


1.76 


1.70 


1.63 


35 


2.07 


2.04 


1.96 


1.88 


1.82 


1.79 


1.74 


1.70 


1.63 


1.57 


40 


2.04 


2.00 


1.92 


1.84 


1.78 


1.74 


1.69 


1.66 


1.59 


1.52 


50 


1.99 


1.95 


1.87 


1.78 


1.73 


1.69 


1.63 


1.60 


1.52 


1.45 


60 


1.95 


1.92 


1.84 


1.75 


1.69 


1.65 


1.59 


1.56 


1.48 


1.40 


80 


1.91 


1.88 


1.79 


1.70 


1.64 


1.60 


1.54 


1.51 


1.43 


1.34 


100 


1.89 


1.85 


1.77 


1.68 


1.62 


1.57 


1.52 


1.48 


1.39 


1.30 


200 


1.84 


1.80 


1.72 


1.62 


1.56 


1.52 


1.46 


1.41 


1.32 


1.21 


500 


1.81 


1.77 


1.69 


1.59 


1.53 


1.48 


1.42 


1.38 


1.28 


1.14 


1000 


1.80 


1.76 


1.68 


1.58 


1.52 


1.47 


1.41 


1.36 


1.26 


1.11 



Apéndice: Tabla G 627 
TABLA G (continuación) -Valores de cuan tües de la distribución F ' -' ' ; ' * ^ r 





■!-' ■ 






'?!■ 


-« •- 0.99 












■■. > '■ 




¿vp^gmctóa de libertad del numerador 








Vj<' 


"■'■1-' 


2 


3- 


4 


y 


6 


1 


8 


9 


10 


v , 2> 


98.50 1 


99.00 


99.17 


99.25 


99.30 


99.33 


99.36 


99.37 


99.39' 


99.40 


3 


34.12 


30.82 


29.46 


28.71 


28.24 


27.91 


27.67 


27.50 


27.34 


27.22 


4 


21.20 


18.00 


16.69 


15.98 


15.52 


15.21 


14.98 


14.80 


14.66 


14.55 


5 


16.26 


13.27 


12.06 


11.39 


10.97 


10.67 


10.46 


10.29 


10.16 


10.05 


6 


13.75 


10.92 


9.78 


9.15 


8.75 


8.47 


8.26 


8.10 


7.98 


7.87 


7 


12.25 


9.55 


8.45 


7.85 


7.46 


7.19 


6.99 


6.84 


6.72 


6.62 


8 


11.26 


8.65 


7.59 


7.01 


6.63 


6.37 


6.18 


6.03 


5.91 


5.81 


9 


10.56 


8.02 


6.99 


6.42 


6.06 


5.80 


5.61 


5.47 


5.35 


5.26 


10 


10.04 


7.56 


.6.55 


5.99 


5.64 


5.39 


5.20 


5.06 


4.94 


4.85 


11 


9.65 


7.21 


6.22 


5.67 


5.32 


5.07 


4.89 


4.74 


4.63 


4.54 


12 


9.33 


6.93 


5.95 


5.41 


5.06 


4.82 


4.64 


4.50 


4.39 


4.30 


13 


9.07 


6.70 


5.74 


5.21 


4.86 


4.62 


4.44 


4.30 


4.19 


4.10 


14 


8.86 


6.51 


5.56 


5.04 


4.69 


4.46 


4.28 


4.14 


4.03 


3.94 


15 


8.68 


6.36 


5.42 


4.89 


4.56 


4.32 


4.14 


4.00 


3.89 


3.80 


16 


8.53 


6.23 


5.29 


4.77 


4.44 


4.20 


4.03 


3.89 


3.78 


3.69 


17 


8.40 


6.11 


5.18 


4.67 


4.34 


4.10 


3.93 


3.79 


3.68 


3.59 


18 


8.29 


6.01 


5.09 


4.58 


4.25 


4.01 


3.84 


3.71 


3.60 


3.51 


19 


8.18 


5.93 


5.01 


4.50 


4.17 


3.94 


3.77 


3.63 


3.52 


3.43 


20 


8.10 


5.85 


4.94 


4.43 


4.10 


3.87 


3.70 


3.56 


3.46 


3.37 


21 


8.02 


5.78 


4.87 


4.37 


4.04 


3.81 


3.64 


3.51 


3.40 


3.31 


22 


7.95 


5.72 


4.82 


4.31 


3.99 


3.76 


3.59 


3.45 


3.35 


3.26 


23 


7.88 


5.66 


4.76 


4.26 


3.94 


3.71 


3.54 


3.41 


3.30 


3.21 


24 


7.82 


5.61 


4.72 


4.22 


3.90 


3.67 


3.50 


3.36 


3.26 


3.17 


25 


7.77 


5.57 


4.68 


4.18 


3.85 


3.63 


3.46 


3.32 


3.22 


3.13 


26 


7.72 


5.53 


4.64 


4.14 


3.82 


3.59 


3.42 


3.29 


3.18 


3.09 


27 


7.68 


5.49 


4.60 


4.11 


3.78 


3.56 


3.39 


3.26 


3.15 


3.06 


28 


7.64 


5.45 


4.57 


4.07 


3.75 


3.53 


3.36 


3.23 


3.12 


3.03 


29 


7.60 


5.42 


4.54 


4.04 


3.73 


3.50 


3.33 


3.20 


3.09 


3.00 


30 


7.56 


5.39 


4.51 


4.02 


3.70 


3.47 


3.30 


3.17 


3.07 


2.98 


35 


7.42 


5.27 


4.40 


3.91 


3.59 


3.37 


3.20 


3.07 


2.% 


2.88 


40 


7.31 


5.18 


4.31 


3.83 


3.51 


3.29 


3.12 


2.99 


2.89 


2.80 


50 


7.17 


5.06 


4.20 


3.72 


3.41 


3.19 


3.02 


2.89 


2.78 


2.70 


60 


7.08 


4.98 


4.13 


3.65 


3.34 


3.12 


2.95 


2.82 


2.72 


2.63 


80 


6.96 


4.88 


4.04 


3.56 


3.26 


3.04 


2.87 


2.74 


2.64 


2.55 


100 


6.90 


4.82 


3.98 


3.51 


3.21 


2.99 


2.82 


2.69 


2.59 


2.50 


200 


6.76 


4.71 


3.88 


3.41 


3.11 


2.89 


2.73 


2.60 


2.50 


2.41 


500 


6.69 


4.65 


3.82 


3.36 


3.05 


2.84 


2.68 


2.55 


2.44 


2.36 


1000 


6.66 


4.63 


3.80 


3.34 


3.04 


2.82 


2.66 


2.53 


2.43 


2.34 



628. Apéndice: Tabla G 



TABLA G (continuación) Valores de cuantilea de la distribución F 











1 


-a = 0.99 
















"i = 


grados de libertad del numerador 








Vi 


11 


12 


15 


20 


25 


30 


40 


50 


100 


1000 


2 


99.41 


99.42 


99.43 


99.45 


99.46 


99.46 


99.47 


99.48 


99.49 


99.51 


3 


27. 11 


27.03 


26.85 


26.67 


26.58 


26.50 


26.41 


26.35 


26.24 


26.14 


4 


14.45 


14.37 


14.19 


14.02 


13.91 


13.84 


13.75 


13.69 


13.58 


13.48 


5 


9.% 


9.89 


9.72 


9.55 


9.45 


9.38 


9.30 


9.24 


9.13 


9.03 


6 


7.79 


7.72 


7.56 


7.40 


7.29 


7.23 


7.15 


7.09 


6.99 


6.89 


7 


6.54 


6.47 


6.31 


6.16 


6.06 


5.99 


5.91 


5.86 


5.75 


5.66 


8 


5.73 


5.67 


5.52 


5.36 


5.26 


5.20 


5.12 


5.07 


4.% 


4.87 


9 


5.18 


5.11 


4.% 


4.81 


4.71 


4.65 


4.57 


4.52 


4.41 


4.32 


10 


4.77 


4.71 


4.56 


4.41 


4.31 


4.25 


4.17 


4.12 


4.01 


3.92 


11 


4.46 


4.40 


4.25 


4.10 


4.00 


3.94 


3.86 


3.81 


3.71 


3.61 


12 


4.22 


4.16 


4.01 


3.86 


3.76 


3.70 


3.62 


3.57 


3.47 


3.37 


13 


4.02 


3.% 


3.82 


3.66 


3.57 


3.51 


3.43 


3.38 


3.27 


3.18 


14 


3.86 


3.80 


3.66 


3.51 


3.41 


3.35 


3.27 


3.22 


3.11 


3.02 


15 


3.73 


3.67 


3.52 


3.37 


3.28 


3.21 


3.13 


3.08 


2.98 


2.88 


16 


3.62 


3.55 


3.41 


3.26 


3.16 


3.10 


3.02 


2.97 


2.86 


2.76 


17 


3.52 


3.46 


3.31 


3.16 


3.07 


3.00 


2.92 


2.87 


2.76 


2.66 


18 


3.43 


3.37 


3.23 


3.08 


2.98 


2.92 


2.84 


2.78 


2.68 


2.58 


19 


3.36 


3.30 


3.15 


3.00 


2.91 


2.84 


2.76 


2.71 


2.60 


2.50 


20 


3.29 


3.23 


3.09 


2.94 


2.84 


2.78 


2.69 


2.64 


2.54 


2.43 


21 


3.24 


3.17 


3.03 


2.88 


2.78 


2.72 


2.64 


2.58 


2.48 


2.37 


22 


3.18 


3.12 


2.98 


2.83 


2.73 


2.67 


2.58 


2.53 


2.42 


2.32 


23 


3.14 


3.07 


2.93 


2.78 


2.69 


2.62 


2.54 


2.48 


2.37 


2.27 


24 


3.09 


3.03 


2.89 


2.74 


2.64 


2.58 


2.49 


2.44 


2.33 


2.22 


25 


3.06 


2.99 


2.85 


2.70 


2.60 


2.54 


2.45 


2.40 


2.29 


2.18 


26 


3.02 


2.96 


2.81 


2.66 


2.57 


2.50 


2.42 


2.36 


2.25 


2,14 


27 


2.99 


2.93 


2.78 


2.63 


2.54 


2.47 


2.38 


2.33 


2.22 


2.11 


28 


2.96 


2.90 


2.75 


2.60 


2.51 


2.44 


2.35 


2.30 


2.19 


2.08 


29 


2.93 


2.87 


2.73 


2.57 


2.48 


2.41 


2.33 


2.27 


2.16 


2.05 


30 


2.91 


2.84 


2.70 


2.55 


2.45 


2.39 


2.30 


2.24 


2.13 


2.02 


35 


2.80 


2.74 


2.60 


2.44 


2.35 


2.28 


2.19 


2.14 


2.02 


1.90 


40 


2.73 


2.66 


2.52 


2.37 


2.27 


2.20 


2.11 


2.06 


1.94 


1.82 


50 


2.62 


2.56 


2.42 


2.27 


2.17 


2.10 


2.01 


1.95 


1.82 


1.70 


60 


2.56 


2.50 


2.35 


2.20 


2.10 


2.03 


1.94 


1.88 


1.75 


1.62 


80 


2.48 


2.42 


2.27 


2.12 


2.01 


1.94 


1.85 


1.79 


1.65 


1.51 


100 


2.43 


2.37 


2.22 


2.07 


1.97 


1.89 


1.80 


1.74 


1.60 


1.45 


200 


2.34 


2.27 


2.13 


1.97 


1.87 


1.79 


1.69 


1.63 


1.48 


1.30 


500 


2.28 


2.22 


2.07 


1.92 


1.81 


1.74 


1.63 


1.57 


1.41 


1.20 


1000 


2.27 


2.20 


2.06 


1.90 


1.79 


1.72 


1.61 


1.54 


1.38 


1.16 



sipenaice: i aota n «*» 

TABLA H ¿-valores para los límites de tolerancia bilaterales cuando se muestrean 
distribuciones normales 



V 




y = 0.75 










y = 0.90 - 





n\ 


0.75 


0.90 


0.95 


0.99 


0.999 


0.75 


6.90 


"0.95 


-0.99! 


0.999 


6 


1.704 


v 2.429 


2.889 


3.779 


4.802 


2.1% 


3Ü31 


3.723 


4.870 


6.188 


7. 


1.624 


2.318 


2.757 


3.611 


4.593 


x2.034 


2.902 


3.452 


4.521 


5.750 


8 


1.568 


2.238 


2.663 


3.491 - 


4.444 


1.921 


2.743 


3.264 


4.278 


5.446 


9 


1.525 


2.178 


2.593 


3.400 


4.330 


1.839 


2.626 


3.125 


4.098 


5.220 


10 


1.492 


2.131 


2.537 


3.328 


4.241 


1.775 


2.535 


3.018 


3.959 


5.046 


11 


1.465 


2.093 


2.493 


3.271 


4.169 


1.724 


2.463 


2.933 


3.849 


4.906 


12 


1.443 


2.062 


2.456 


3.223 


4.110 


1.683 


2.404 


2.863 


3.758 


4.792 


13 


1.425 


2.036 


2.424 


3.183 


4.059 


1.648 


2.355 


♦2.805 


3.682 


4.697 


14 


1.409 


2.013 


2.398 


3.148 


4.016 


1.619 


2.314 


2.756 


3.618 


4.615 


15 


1.395 


1.994 


2.375 


3.118 


3.979 


1.594 


2.278 


2.713 


3.562 


4.545 


16 


1.383 


1.977 


2.355 


3.092 


3.946 


1.572 


2.246 


2.676 


3.514 


4.484 


17 


1.372 


1.962 


2.337 


3.069 


3.917 


1.552 


2.219 


2.643 


3.471 


4.430 


18 


1.363 


1.948 


2.321 


3.048 


3.891 


1.535 


2.194 


2.614 


3.433 


4.382 


19 


1.355 


1.936 


2.307 


3.030 


3.867 


1.520 


2.172 


2.588 


3.399 


4.339 


20 


1.347 


1.925 


2.294 


3.013 


3.846 


1.506 


2.152 


2.564 


3.368 


4.300 


21 


1.340 


1.915 


2.282 


2.998 


3.827 


1.493 


2.135 


2.543 


3.340 


4.264 


22 


1.334 


1.906 


2.271 


2.984 


3.809 


1.482 


2.118 


2.524 


3.315 


4.232 


23 


1.328 


1.898 


2.261 


2.971 


3.793 


1.471 


2.103 


2.506 


3.292 


4.203 


24 


1.322 


1.891 


2.252 


2.959 


3.778 


1.462 


2.089 


2.489 


3.270 


4.176 


25 


1.317 


1.883 


2.244 


2.948 


3.764 


1.453 


2.077 


2.474 


3.251 


4.151 


26 


1.313 


1.877 


2.236 


2.938 


3.751 


1.444 


2.065 


2.460 


3.232 


4.127 


27 


1.309 


1.871 


2.229 


2.929 


3.740 


1.437 


2.054 


2.447 


3.215 


4.106 


28 


1.305 


1.865 


2.222 


2.920 


3.728 


1.430 


2.044 


2.435 


3.199 


4.085 


29 


1.301 


1.860 


2.216 


2.911 


3.718 


1.423 


2.034 


2.424 


3.184 


4.066 


30 


1.297 


1.855 


2.210 


2.904 


3.708 


1.417 


2.025 


2.413 


3.170 


4.049 


31 


1.294 


1.850 


2.204 


2.8% 


3.699 


1.411 


2.017 


2.403 


3.157 


4.032 


32 


1.291 


1.846 


2.199 


2.890 


3.690 


1.405 


2.009 


2.393 


3.145 


4.016 


33 


1.288 


1.842 


2.194 


2.883 


3.682 


1.400 


2.001 


2.385 


3.133 


4.001 


34 


1.285 


1.838 


2.189 


2.877 


3.674 


1.395 


1.994 


2.376 


3.122 


3.987 


35 


1.283 


1.834 


2.185 


2.871 


3.667 


1.390 


1.988 


2.368 


3.112 


3.974 


36 


1.280 


1.830 


2.181 


2.866 


3.660 


1.386 


1.981 


2.361 


3.102 


3.%1 


37 


1.278 


1.827 


2.177 


2.860 


3.653 


1.381 


1.975 


2.353 


3.092 


3.949 


38 


1.275 


1.824 


2.173 


2.855 


3.647 


1.377 


l.%9 


2.346 


3.083 


3.938 


39 


1.273 


1.821 


2.169 


2.850 


3.641 


1.374 


1.964 


2.340 


3.075 


3.927 


40 


1.271 


1.818 


2.166 


2.846 


3.635 


1.370 


1.959 


2.334 


3.066 


3.917 


41 


1.269 


1.815 


2.162 


2.841 


3.629 


1.366 


1.954 


2.328 


3.059 


3.907 


42 


1.267 


1.812 


2.159 


2.837 


3.624 


1.363 


1.949 


2.322 


3.051 


3.897 


43 


1.266 


1.810 


2.156 


2.833 


3.619 


1.360 


1.944 


2.316 


3.044 


3.888 


44 


1.264 


1.807 


2.153 


2.829 


3.614 


1.357 


1.940 


2.311 


3.037 


3.879 


45 


1.262 


1.805 


2.150 


2.826 


3.609 


1.354 


1.935 


2.306 


3.030 


3.871 


46 


1.261 


1.802 


2.148 


2.822 


3.605 


1.351 


1.931 


2.301 


3.024 


3.863 


47 


1.259 


1.800 


2.145 


2.819 


3.600 


1.348 


1.927 


2.297 


3.018 


3.855 


48 


1.258 


1.798 


2.143 


2.815 


3.5% 


1.345 


1.924 


2.292 


3.012 


3.847 


49 


1¡256 


1.7% 


2.140 


2.812 


3.592 


1.343 


1.920 


2.288 


3.006 


3.840 


50 


1.255 


1.794 


2.138 


2.809 


3.588 


1.340 


1.916 


2.284 


3.001 


3.833 



TABLA H (continuación) Ar-valores para los límites de tolerancia bilaterales cuando se 
muestrean distribuciones normales 



V 




-—•- y = 95 






i, ;■ ■■■ tí. 


": "■- ¿. í'Ai 


y = °." 


. 3. 


A 


0.75 


0.90 


0.95 


0.99 


0.999 


0.75 


" 0.90. 


0.95 


0.99 


0.999 


6 


2.604 


3.712 


4.414 


. 5.775 


7.337 


' 3.743 ¿.. 


5.337 ; 


^6.345, 


8.301 


10.548. 


7 


2.361 


3.369 


4.007 


5.248 


6.676 


3.233 


4.613 


5.488 


7.187 


9.142 


8 


2.197\ 


3.136 


3.732 


4.891 


6.226 


2.905 


4.147 


4.936 


6.468 


8.234 


9 


2.078 


• 2.967 


3.532 ' 


4.631 


5.899 


2.677 


3.822 


4.550 


5.966 


7.600 


10 


1.987 


2.839 


3.379 


4.433 


5.649 


2.508 


3.582 


4.265 


5.594 


7.129 


11 


1.916 


2.737 


3.259 


4.277 


5.452 


2.378 


3.397 


4.045 


5.308 


6.766 


12 


1.858 


2.655 


3.162 


4.150 


5.291 


2.274 


3.250 


3.870 


5.079 


6.477 


13 


1.810 


2.587 


3.081 


4.044 


5.158 


2.190 


3.130 


3.727 


4.893 


6.240 


14 


1.770 


2.529 


3.012 


3.955 


5.045 


2.120 


3.029 


3.608 


4.737 


6.043 


15 


1.735 


2.480 


2.954 


3.878 


4.949 


2.060 


2.945 


3.507 


4.605 


5.876 


16 


1.705 


2.437 


2.903 


3.812 


4.865 


2.009 


2.872 


3.421 


4.492 


5.732 


17 


1.679 


2.400 


2.858 


3.754 


4.791 


1.965 


2.808 


3.345 


4.393 


5.607 


18 


1.655 


2.366 


2.819 


3.702 


4.725 


1.926 


2.753 


\2 7( > 


4.307 


5.497 


19 


1.635 


2.337 


2.784 


3.656 


4.667 


1.891 


2.703 


3.221 


4.230 


5.399 


20 


1.616 


2.310 


2.752 


3.615 


4.014 


1.860 


2.659 


3.168 


4.161 


5.312 


21 


1.599 


2.286 


2.723 


3.577 


4.567 


1.833 


2.620 


3.121 


4.100 


5.234 


22 


1.584 


2.264 


2.697 


3.543 


4.523 


1.808 


2.584 


3.078 


4.044 


5.163 


23 


1.570 


2.244 


2.673 


3.512 


4.484 


1.785 


2.551 


3.040 


3.993 


5.098 


24 


1.557 


2.225 


2.651 


3.483 


4.447 


1.764 


2.522 


3.004 


3.947 


5.039 


25 


1.545 


2.208 


2.631 


3.457 


4.413 


1.745 


2.494 


2.972 


3.904 


4.985 


26 


1.534 


2.193 


2.612 


3.432 


4.382 


1.727 


2.469 


2.941 


3.865 


4.935 


27 


1.523 


2.178 


2.595 


3.409 


4.353 


1.711 


2.446 


2.914 


3.828 


4.888 


28 


1.514 


2.164 


2.579 


3.388 


4.326 


1.695 


2.424 


2.888 


3.794 


4.845 


29 


1.505 


2.152 


2.554 


3.368 


4.301 


1.681 


2.404 


2.864 


3.763 


4.805 


30 


1.497 


2.140 


2.549 


3.350 


4.278 


1.668 


2.385 


2.841 


3.733 


4.768 


31 


1.489 


2.129 


2.536 


3.332 


4.256 


1.656 


2.367 


2.820 


3.706 


4.732 


32 


1.481 


2.118 


2.524 


3.316 


4.235 


1.644 


2.351 


2.801 


3.680 


4.699 


33 


1.475 


2.108 


2.512 


3.300 


4.215 


1.633 


2.335 


2.782 


3.655 


4.668 


34 


1.468 


2.099 


2.501 


3.286 


4.197 


1.623 


2.320 


2.764 


3.632 


4.639 


35 


1.462 


2.090 


2.490 


3.272 


4.179 


1.613 


2.306 


2.748 


3.611 


4.611 


36 


1.455 


2.081 


2.479 


3.258 


4.161 


1.604 


2.293 


2.732 


3.590 


4.585 


37 


1.450 


2.073 


2.470 


3.246 


4.146 


1.595 


2.281 


2.717 


3.571 


4.560 


38 


1.446 


2.068 


2.464 


3.237 


4.134 


1.587 


2.269 


2.703 


3.552 


4.537 


39 


1.441 


2.060 


2.455 


3.226 


4.120 


1.579 


2.257 


2.690 


3.534 


4.514 


40 


1.435 


2.052 


2.445 


3.213 


4.104 


1.571 


2.247 


2.677 


3.518 


4.493 


41 


1.430 


2.045 


2.437 


3.202 


4.090 


1.564 


2.236 


2.665 


3.502 


4.472 


42 


1.426 


2.039 


2.429 


3.192 


4.077 


1.557 


2.227 


2.653 


3.486 


4.453 


43 


1.422 


2.033 


2.422 


3.183 


4.065 


1.551 


2.217 


2.642 


3.472 


4.434 


44 


1.418 


2.027 


2.415 


3.173 


4.053 


1.545 


2.208 


2.631 


3.458 


4.416 


45 


1.414 


2.021 


2.408 


3.165 


4.042 


1.539 


2.200 


2.621 


3.444 


4.399 


46 


1.410 


2.016 


2.402 


3.156 


4.031 


1 .533 


2.192 


2.611 


3.431 


4.383 


47 


1.406 


2.011 


2.3% 


3.148 


4.021 


1.527 


2.184 


2.602 


3.419 


4.367 


48 


1.403 


2.006 


2.390 


3.140 


4.011 


1.522 


2.176 


2.593 


3.407 


4.352 


49 


1.399 


2.001 


2.384 


3.133 


4.002 


1.517 


2.169 


2.584 


3.396 


4.337 


50 


1.396 


1.969 


2.379 


3.126 


3.993 


1.512 


2.162 


2.576 


3.385 


4.323 



Source: C. Eisenhart, M. W. Hastay, and W. A. Wallis, Techniques ofslalistical analysis, McGraw- 
Hill, New York, 1947. Publicado con permiso. 



Apéndice: i aoia i oji 

TABLA I Ar-valores para los limites de tolerancia unilaterales cuando se muestrean 

distribuciones normales , ' - :•; ; 



V 






y = 0.75 










y = 0.90 




A 


0.75 


0.90 


0.95 


0.99 


0.999; 


0.75, 


0.90, 


95; 


0.99 


0.999 


6 


1.087- 


1.860 


2.336 


3.243 


4.273 


1.540 


2.494 


3.091 


4.242 


5.556 


• 7 • 


1.043 


1.791 


2.250 


3.126 


4.118 


1.435 


2.333 


2.894 : 


3.972 


5.201 


8 


1.010 


1.740 


2.190 


3.042 


4.008 


1.360 


2.219 


2.755 


3.783 


4.955 


9 


0.984 


1.702 


2.141 


2.977 


3.924 


1.302 


2.133 


2.649 


3.641 


4.772 


10 


0.964 


1.671 


2.103 


2.927 


3.858 


1.257 


2.065 


2.568 


3.532 


4.629 


11 


0.947 


1.646 


2.073 


2.885 


3.804 


1.219 


2.012 


2.503 


3.444 


4.515 


12 


0.933 


1.624 


2.048 


2.851 


3.760 


1.188 


1.966 


2.448 


3.371 


4.420 


13 


0.919 


1.606 


2.026 


2.822 


3.722 


1.162 


1.928 


2.403 


3.310 


4.341 


14 


0.909 


1.591 


2.007 


2.7% 


3.690 


1.139 


1.895 


2.363 


3.257 


4.274 


15 


0.899 


1.577 


1.991 


2.776 


3.661 


1.119 


1.866 


2.329 


3.212 


4.215 


16 


0.891 


1.566 


1.977 


2.756 


3.637 


1.101 


1.842 


2.299 


3.172 


4.164 


17 


0.883 


1.554 


1.964 


2.739 


3.615 


1.085 


1.820 


2.272 


3.136 


4.118 


18 


0.876 


1.544 


1.951 


2.723 


3.595 


1.071 


1.800 


2.249 


3.106 


4.078 


19 


0.870 


1.536 


1.942 


2.710 


3.577 


1.058 


1.781 


2.228 


3.078 


4.041 


20 


0.865 


1.528 


1.933 


2.697 


3.561 


1.046 


1.765 


2.208 


3.052 


4.0O9 


21 


0.859 


1.520 


1.923 


2.686 


3.545 


1.035 


1.750 


2.190 


3.028 


3.979 


22 


0.854 


1:514 


1.916 


2.675 


3.532 


1.025 


1.736 


2.174 


3.007 


3.952 


23 


0.849 


1.508 


1.907 


2.665 


3.520 


1.016 


1.724 


2.159 


2.987 


3.927 


24 


0.845 


1.502 


1.901 


2.656 


3.509 


1.007 


1.712 


2.145 


2.969 


3.904 


25 


0.842 


1.496 


1.895 


2.647 


3.497 


0.999 


1.702 


2.132 


2.952 


3.882 


30 


0.825 


1.475 


1.869 


2.613 


3.454 


0.966 


1.657 


2.080 


2.884 


3.794 


35 


0.812 


1.458 


1.849 


2.588 


3.421 


0.942 


1.623 


2.041 


2.833 


3.730 


40 


0.803 


1.445 


1.834 


2.568 


3.395 


0.923 


1.598 


2.010 


2.793 


3.679 


45 


0.795 


1.435 


1.821 


2.552 


3.375 


0.908 


1.577 


1.986 


2.762 


3.638 


50 


0.788 


1.426 


1.811 


2.538 


3.358 


0.894 


1.560 


1.965 


2.735 


3.604 



632 Apéndice: Tabla I 

TABLA I (continuación) Ar-valores para los limites de tolerancia unilaterales cuando se 
muestrean distribuciones normales ^ 



V 






y = 0.95 










y = 0.99 


l 




A 


0.75 


0.90 


0.95 


0.99 


0.999 


0.75 


0.90 


0.95 


0.99 


0.999 


6 


1.895 


3.006 


3.707 


5.062 


6.612 


2.849 


4.408 


5.409 


7.334 


9.540 


7 


1.732 


2.755 


3.399 


4.641 


6.061 


2.490 


3.856 


4.730 


6.411 


8.348 


8 


1.617 


2.582 


3.188 


4.353 


5.686 


2.252 


3.4% 


4.287 


5.811 


7.566 


9 


1.532 


2.454 


3.031 


4.143 


5.414 


2.085 


3.242 


3.971 


5.389 


7.014 


10 


1.465 


2.355 


2.911 


3.981 


5.203 


1.954 


3.048 


3.739 


5.075 


6.603 


11 


1.411 


2.275 


2.815 


3.852 


5.036 


1.854 


2.897 


3.557 


4.828 


6.284 


12 


1.366 


2.210 


2.736 


3.747 


4.900 


1.771 


2.773 


3.410 


4.633 


6.032 


13 


1.329 


2.155 


2.670 


3.659 


4.787 


1.702 


2.677 


3.290 


4.472 


5.826 


14 


1.2% 


2.108 


2.614 


3.585 


4.690 


1.645 


2.592 


3.189 


4.336 


5.651 


15 


1.268 


2.068 


2.566 


3.520 


4.607 


1.5% 


2.521 


3.102 


4.224 


5.507 


16 


1.242 


2.032 


2.523 


3.463 


4.534 


1.553 


2.458 


3.028 


4.124 


5.374 


17 


1.220 


2.001 


2.486 


3.415 


4.471 


1.514 


2.405 


2.%2 


4.038 


5.268 


18 


1.200 


1.974 


2.453 


3.370 


4.415 


1.481 


2.357 


2.906 


3.%1 


5.167 


19 


1.183 


1.949 


2.423 


3.331 


4.364 


1.450 


2.315 


2.855 


3.893 


5.078 


20 


1.167 


1.926 


2.3% 


3.295 


4.319 


1.424 


2.275 


2.807 


3.832 


5.003 


21 


1.152 


1.905 


2.371 


3.262 


4.276 


1.397 


2.241 


2.768 


3.776 


4.932 


22 


1.138 


1.887 


2.350 


3.233 


4.238 


1.376 


2.208 


2.729 


3.727 


4.866 


23 


1.126 


1.869 


2.329 


3.206 


4.204 


1.355 


2.179 


2.693 


3.680 


4.806 


24 


1.114 


1.853 


2.309 


3.181 


4.171 


1.336 


2.154 


2.663 


3.638 


4.755 


25 


1.103 


1.838 


2.292 


3.158 


4.143 


1.319 


2.129 


2.632 


3.601 


4.706 


30 


1.059 


1.778 


2.220 


3.064 


4.022 


1.249 


2.029 


2.516 


3.446 


4.508 


35 


1.025 


1.732 


2.166 


2.994 


3.934 


1.195 


1.957 


2.431 


3.334 


4.364 


40 


0.999 


1.697 


2.126 


2.941 


3.866 


1.154 


1.902 


2.365 


3.250 


4.255 


45 


0.978 


1.669 


2.092 


2.897 


3.811 


1.122 


1.857 


2.313 


3.181 


4.168 


50 


0.961 


1.646 


2.065 


2.863 


3.766 


1.0% 


1.821 


2.2% 


3.124 


4.0% 



Source: G. J. Lieberman, Tablefor one-sided statistical tolerance limits, Industrial Quality Control 
XIV, 1958, 7-9. Reprinted with permission. 



Apéndice: Tabla J WJ 

TABLA J Valores de cuantiles superiores de la distribución de la estadística D n de Kolgomo- 
rov-Smirriov 









i - « 






n 


0.80 


0.85 


0.90 


0.95 


0.99 


, 1 ^ 


.900 


.925 


.950 


.975 


.995 


_:' "2 


.684 


.726. \ 


.776 


.842 


.929 


3 


.565 


' .597 


.642 


.708 


.828 


4 


.494 


.525 


.564 


.624 


.733 


5 


.446, 


.474 


.510 


.565 


.669 


6 


.410 


.436 


.470 


.521 


.618 


7 


.381 


.405 


.438 


.486 


.577 


8 


.358 


.381 


.411 


.457 


.543 


9 


.339 


.360 


.388 


.432 


.514 


10 


.322 


.342 


.368 


.410 


.490 


:i 


.307 


.326 


.352 


.391 


.468 


12 


.295 


.313 


.338 


.375 


.450 


13 


.284 


.302 


.325 


.361 


.433 


14 


.274 


.292 


.314 


.349 


.418 


15 


.266 


.283 


.304 


.338 


.404 


16 


.258 


.274 


.295 


.328 


.392 


17 


.250 


.266 


.286 


.318 


.381 


18 


.244 


.259 


.278 


.309 


.371 


19 


.237 


.252 


.272 


.301 


.363 


20 


.231 


.246 


.264 


.294 


.356 


25 


.21 


.22 


.24 


.27 


.32 


30 


.19 


.20 


.22 


.24 


.29 


35 


.18 


.19 


.21 


.23 


.27 


Fórmula para una 


1.07 


1.14 


1.22 


1.36 


1.63 


n mayor 


V^T 


V^T 


\¿T 


Vn~ 


VÍT 



Fuente: F. J. Massey, Jr., The Kolmogorov-Smornov test for goodness offit, J. Amer Statistical Assoc. 
46 (1951), 68-78. Publicado con permiso. 



634 Apéndice: Tabla K 



TABLA K :■ Limites de la estadística de Durbin-Watson 



: w- 











1 - 


- a ■■=. I 


0.95 












k = 


■1 --•■- 


k = 


-2-~- 


¿t 


= -3-— - 


k = 


4 


k = 


5 


n 


d L 


" du 


d L 


"du 


d L ... 


' du 


d L '. 


du 


d L 


du 


15 


108 


1.36 


0.95 


1.54 


0.82 


1.75 


0.69 


1.97 


0.56 


2.21 


16 


1.10 


1.37 


0.98 


1.54 


0.86 


1.73 


0.74 


1.93 


0.62 


2.15 


17 


1.13 


1.38 


1.02 


1.54 


0.90 


1.71 


0.78 


1.90 


0.67 


2.10 


18 


1.16 


1.39 


1.05 


1.53 


0.93 


1.69 


0.82 


1.87 


0.71 


2.06 


19 


1.18 


1.40 


1.08 


1.53 


0.97 


1.68 


0.86 


1.85 


0.75 


2.02 


20 


1.20 


1.41 


1.10 


1.54 


1.00 


1.68 


0.90 


1.83 


0.79 


1.99 


21 


1.22 


1.42 


1.13 


1.54 


1.03 


1.67 


0.93 


1.81 


0.83 


1.96 


22 


1.24 


1.43 


1.15 


1.54 


1.05 


1.66 


0.% 


1.80 


0.86 


1.94 


23 


1.26 


1.44 


1.17 


1.54 


1.08 


1.66 


0.99 


1.79 


0.90 


1.92 


24 


1.27 


1.45 


1.19 


1.55 


1.10 


1.66 


1.01 


1.78 


0.93 


1.90 


25 


1.29 


1.4* 


1.21 


1.55 


1.12 


1.66 


1.04 


1.77 


0.95 


1.89 


26 


1.30 


1.46 


1.22 


1.55 


1.14 


1.65 


1.06 


1.76 


0.98 


1.88 


27 


1.32 


1.47 


1.24 


1.56 


1.16 


1.65 


1.08 


1.76 


1.01 


1.86 


28 


1.33 


1.48 


1.26 


1.56 


1.18 


1.65 


1.10 


1.75 


1.03 


1.85 


29 


1.34 


1.48 


1.27 


1.56 


1.20 


1.65 


1.12 


1.74 


1.05 


1.84 


30 


1.35 


1.49 


1.28 


1.57 


1.21 


1.65 


1.14 


1.74 


1.07 


1.83 


31 


1.36 


1.50 


1.30 


1.57 


1.23 


1.65 


1.16 


1.74 


1.09 


1.83 


32 


1.37 


1.50 


1.31 


1.57 


1.24 


1.65 


1.18 


1.73 


1.11 


1.82 


33 


1.38 


1.51 


1.32 


1.58 


1.26 


1.65 


1.19 


1.73 


1.13 


1.81 


34 


•' 1.39 


1.51 


1.33 


1.58 


1.27 


1.65 


1.21 


1.73 


1.15 


1.81 


35 


1.40 


1.52 


1.34 


1.58 


1.28 


1.65 


1.22 


1.73 


1.16 


1.80 


36 


1.41 


1.52 


1.35 


1.59 


1.29 


1.65 


1.24 


1.73 


1.18 


1.80 


37 


1.42 


1.53 


1.36 


1.59 


1.31 


1.66 


1.25 


1.72 


1.19 


1.80 


38 


1.43 


1.54 


1.37 


1.59 


1.32 


1.66 


1.26 


1.72 


1.21 


1.79 


39 


1.43 


1.54 


1.38 


1.60 


1.33 


1.66 


1.27 


1.72 


1.22 


1.79 


40 


1.44 


1.54 


1.39 


1.60 


1.34 


1.66 


1.29 


1.72 


1.23 


1.79 


45 


1.48 


1.57 


1.43 


1.62 


1.38 


1.67 


1.34 


1.72 


1.29 


1.78 


50 


1.50 


1.59 


1.46 


1.63 


1.42 


1.67 


1.38 


1.72 


1.34 


1.77 


55 


1.53 


1.60 


1.49 


1.64 


1.45 


1.68 


1.41 


1.72 


1.38 


1.77 


60 


1.55 


1.62 


1.51 


1.65 


1.48 


1.69 


1.44 


1.73 


1.41 


1.77 


65 


1.57 


1.63 


1.54 


1.66 


1.50 


1.70 


1.47 


1.73 


1.44 


1.77 


70 


1.58 


1.64 


1.55 


1.67 


1.52 


1.70 


1.49 


1.74 


1.46 


1.77 


75 


1.60 


1.65 


1.57 


1.68 


1.54 


1.71 


1.51 


1.74 


1.49 


1.77 


80 


1.61 


1.66 


1.59 


1.69 


1.56 


1.72 


1.53 


1.74 


1.51 


1.77 


85 


1.62 


1.67 


1.60 


1.70 


1.57 


1.72 


1.55 


1.75 


1.52 


1.77 


90 


1.63 


1.68 


1.61 


1.70 


1.59 


1.73 


1.57 


1.75 


1.54 


1.78 


95 


1.64 


1.69 


1.62 


1.71 


1.60 


1.73 


1.58 


1.75 


1.56 


1.78 


100 


1.65 


1.69 


1.63 


1.72 


1.61 


1.74 


1.59 


1.76 


1.57 


1.78 



Apéndice: Tabla K 635 
TABLA K (continuación) Límites de la estadística de Durbin-Watson 











1 - 


- o =. 


0.99 


.... ■ -, 


-5» .-" ***_ y 


v </~* "*. , 


<■■«■ 




k = 


1 


? ' k = 


*2 ■*''■'' 


'. ¿ 


= "3" 
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0.87 
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0.67 


1.43 
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1.63 


0.48 


1.85 
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0.90 


1.12 
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1.42 


0.61 
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0.52 


1.80 


19 


0.93 


1.13 


0.83 


1.26 


0.74 


1.41 


0.65 


1.58 


0.56 


1.77 


20 


0.95 


1.15 


0.86 


1.27 


0.77 


1.41 


0.68 


1.57 


0.60 


1.74 


21 


0.97 


1.16 


0.89 


1.27 


0.80 


1.41 


0.72 


1.55 


0.63 


1.71 


22 


1.00 


1.17 


0.91 


1.28 


0.83 


1.40 


0.75 


1.54 


0.66 


1.69 


23 


1.02 


1.19 


0.94 


1.29 


0.86 


1.40 


0.77 


1.53 


0.70 


1.67 


24 


1.04 


1.20 


G.96 


1.30 


0.88 


1.41 


0.80 


1.53 


0.72 


1.66 


25 


1.05 


1.21 


0.98 


1.30 


0.90 


1.41 


0.83 


1.52 


0.75 


1.65 


26 


1.07 


1.22 


1.00 


1.31 


0.93 


1.41 


0.85 


1.52 


0.7o 


1.64 


27 


1.09 


1.23 


1.02 


1.32 


0.95 


1 41 


0.88 


1.51 


0.81 


1.63 


28 


1.10 


1.24 


1.04 


1.32 


0.97 


1.41 


0.90 


1.51 


0.83 


1.62 


29 


1.12 


1.25 


1.05 


1.33 


0.99 


1.42 


0.92 


1.51 


0.85 


1.61 


30 


1.13 


1.26 


1.07 


1.34 


1.01 


1.42 


0.94 


1.51 


0.88 


1.61 


31 


1.15 


1.27 


1.08 


1.34 


1.02 


1.42 


0.96 


1.51 


0.90 


1.60 


32 


1.16 


1.28 


1.10 


1.35 


1.04 


1.43 


0.98 


1.51 


0.92 


1.60 


33 


1.17 


1.29 


1.11 


1.36 


1.05 


1.43 


1.00 


1.51 


0.94 


1.59 


34 


1.18 


1.30 


1.13 


1.36 


1.07 


1.43 


1.01 


1.51 


0.95 


1.59 


35 


1.19 


1.31 


1.14 


1.37 


1.08 


1.44 


1.03 


1.51 


0.97 


1.59 


36 


1.21 


1.32 


1.15 


1.38 


1.10 


1.44 


1.04 


1.51 


0.99 


1.59 


37 


1.22 


1.32 


1.16 


1.38 


1.11 


1.45 


1.06 


1.51 


1.00 


1.59 


38 


1.23 


1.33 


1.18 


1.39 


1.12 


1.45 


1.07 


1.52 


1.02 


1.58 


39 


1.24 


1.34 


1.19 


1.39 


1.14 


1.45 


1.09 


1.52 


1.03 


1.58 


40 


1.25 


1.34 


1.20 


1.40 


1.15 


1.46 


1.10 


1.52 


1.05 


1.58 


45 


1.29 


1.38 


1.24 


1.42 


1.20 


1.48 


1.16 


1.53 


1.11 


1.58 


50 


1.32 


1.40 


1.28 


1.45 


1.24 


1.49 


1.20 


1.54 


1.16 


1.59 


55 


1.36 


1.43 


1.32 


1.47 


1.28 


1.51 


1.25 


1.55 


1.21 


1.59 


60 


1.38 


1.45 


1.35 


1.48 


1.32 


1.52 


1.28 


1.56 


1.25 


1.60 


65 


1.41 


1.47 


1.38 


1.50 


1.35 


1.53 


1.31 


1.57 


1.28 


1.61 


70 


1.43 


1.49 


1.40 


1.52 


1.37 


1.55 


1.34 


1.58 


1.31 


1.61 


75 


1.45 


1.50 


1.42 


1.53 


1.39 


1.56 


1.37 


1.59 


1.34 


1.62 


80 


1.47 


1.52 


1.44 


1.54 


1.42 


1.57 


1.39 


1.60 


1.36 


1.62 


85 


1.48 


1.53 


1.46 


1.55 


1.43 


1.58 


1.41 


1.60 


1.39 


1.63 


90 


1.50 


1.54 


1.47 


1.56 


1.45 


1.59 


1.43 


1.61 


1.41 


1.64 


95 


1.51 


1.55 


1.49 


1.57 


1.47 


1.60 


1.45 


1.62 


1.42 


1.64 


100 


1.52 


1.56 


1.50 


1.58 


1.48 


1.60 


1.46 


1.63 


1.44 


1.65 



Fuente: J. Durbin and G. S. Watson, Testing for serial correlation in least squares regression, //.Biome- 
trilca 38 (1951), 159-178. Publicado con permiso de Biometrika Trustees. 



Respuestas a los ejercicios 
seleccionados de número impar 



Capítulo 1 

1.1. a),b) 



1.3. 
1.5. 



Frecuencia 
Límites Frecuencia de Frecuencia relativa 
verdaderos la clase relativa acumulativa 



(0.15, 1.55) 


17 


0.34 


0.34 


(1.55, 2.95) 


11 


0.22 


0.56 


(2.95, 4.35) 


7 


0.14 


0.70 


(4.35, 5.75) 


6 


0.12 


0.82 


(5.75, 7.15) 


4 


0.08 


0.90 


(7.15, 8.55) 


3 


0.06 


0.96 


(8.55, 9.95) 


2 


0.04 


1.00 


Totales 


50 


1.00 





c) Los intervalos intercuantil e interdecil son, en forma aproximada, iguales a 3.8 min y 
6.7 min, respectivamente. 

d) x = 3.258; Mediana = 2.6182; Moda = 0.85; s = 2.4986; M.D. = 2.081; y 
Md.D. = 2.0042 

e) x = 3.26; Median = 2.75; Moda = 0.4; s = 2.4819; M.D. = 2.0056; y 
Md.D. = 1.948 

x = 3.5; las varianzas son s] = 3.5, s\ = 7.5, > s\ = 109.9 



Límites Frecuencia 

verdaderos Frecuencia relativa 



(-1.875, 


-1.125) 


5 


0.1667 


(-1.125, 


-0.375) 


5 


0.1667 


(-0.375, 


0.375) 


8 


0.2667 


(0.375, 


1.125) 


8 


0.2667 


(1.125, 


1.875) 


4 


0.1333 


Totales 




30 


1.0001 



Ningún cambio en la distribución de frecuencia relativa 
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1.7. b) x = 18.82; Moda = 14.0 

c) j 2 = 123.41%; s = 11.11; A/.0. = 9.27 

Capítulo 2 

2.1. a) Los eventos no son mutuamente excluyen tes 

b) 1. 180/400; 2. 150/400; 3. 30/400; 4. 60/180; 5. 60/200 

c) P(S | M) = 50/220; P(S) = 150/400; no son estadísticamente independientes 

d) No; P(A | F) = 0.1111, />(A) = 0.125 

e) 1. 240/400; 2. 210/400; 3. 60/400; 4. 30/50 

2.3. Cuando alguno o ambos eventos son vacíos 

2.5. Las permutaciones son GGG, GGB, GBG, BGG, BBG, BGB, y BBB. La probabilidad 
de tener dos niños del mismo sexo es 6/8; la probabilidad de un niño y dos niños es 3/8; 
la probabilidad de que todos sean del mismo sexo es 2/8. 

2.7. (1/2) 10 ; 1/2 

2.9. 13/30 

2.11. a) Cuatro resultados posibles: ambos componentes trabajan; ambos no y uno trabaja 
y el otro no (en dos formas posibles) 
b) 0.99 

2.13. n = 4 

2.15. 0.6571 

2.17. 0.41 



Capítulo 3 






3.1. a), c) x 


p(x) 


F(x) 





0.0498 


0.0498 


1 


0.1494 


0.1992 


2 


0.2240 


0.4232 


3 


0.2240 


0.6472 


4 


0.1680 


0.8152 


5 


0.1008 


0.9160 


6 


0.0504 


0.9664 


7 


0.0216 


0.9880 



3.3. a) 3/2; b) (,v' + l)/2; c) 7/16, 1/8 

3.5. a) (l/100)exp(-jc/l00); b) 0.8187 

3.7. E(X) = 4; Var(X) = 4.1 

3.9. a) 1/3; b) 1/18 

3.11. a) 4; b) 16; c) 2; d) 9 

e) La distribución del ejercicio 3.10 es simétrica y se encuentra centrada alrededor del 
valor 5, tiene varianza igual a 8.33 y desviación estándar de 2.8868. Esta distribución 
tiene un sesgo positivo y un pico relativamente grande; la dispersión relativa también 
es grande. 

3.13. a) o- 2 + ( M - c) 2 ; b) c = n 

3.15. M.D.(X) = 0.19753, d.e. (X) = 0.2357 
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3 17. a) Media = 800, Mediana = 554.52; b) 878.89 c) 1757.78; d) 0.3679 
3.19. a) (1 - 4/) 2 ¿J E(X) = 8, VW (*) = 32 

Capítulo 4 

4.5. a/ 0-6562, 0.9346; , b) 0.5696, 0.9391 

4.7. P (X = 4) = 0.0049, P(X > 4) = 0.0055; existe una inclinación a concluir que la afir- 
mación es incorrecta 
4.9. 0.2122 

4. 1 1 . Seis o más 

4.15. 0.7601, 0.9718 

4.17. 0.0488 

4.19. 0.0803, 0.9862 

4.21. 0.6767 

4.23. 0.0293, sí 

4.25. 0.1837, no 

4.27. a) 0.5973; b) 5987; c) 0.6065 

4.31. 





Frecuencia 


Probabitidaí 


X 


relativa 


teórica 





0.715 


0.7201 


1 


0.179 


0.1689 


2 


0.063 


0.0630 


3 


0.019 


0.0263 


4 


0.010 


0.0116 


5 


0.010 


0.0053 


6 


0.002 


0.0025 


7 


0.000 


0.0012 


8 


0.002 


0.0006 



4.33. a) 0.0189; b) 0.0180; la ocurrencia es poco probable 

Capítulo 5 

5.3. a) 0.4649; b) 0.2204; c) 0.0228; d) 0.8643 

5.5. a) 1.775; b) 18.225; c) 21.65; d) -1.65; e) 0.2: ./? 19.8 

5.7. 1018 

5.9. 0.00069 

5.11. 0.000008; la ocurrencia es muy poco probable 

5.13. $228 000 

5.15. a) 0.0256; b) =0; c) =0 

5.17. Sí, la probabilidad de ocurrencia es virtualmente cero. 

5.19. a) 0.5774; b) no 

5.21. a)= 4, b = 16 
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5.23. b) E(X) = 0.75, Var{X) = 0.0375, D.M.(X) =0.1 S&t&aAX) = -0.8607, 
a 4 (X) = 3.0952 ■ 1 • , ■ 

c) 0.6679,0.9523; d) Ó.63?0.7937, 0.9086 ' 0;: ' ncr/l " i ' 3 b ' '' " 

5.25.0.64,0.9728 v- 'V :; ; 

5.27. 0.1314, 0.0582 '"'' '"'"' 

5.29. a) 0.594; 6; 0.0466; c) 0.2642 ' \ • " • ^ ■ ■ ■« . . „ 

5.31. a = 3.75, 6 = 8 
5.35. 0.9409 

5.37. ^ £(*) = 44.3113; 16.23, 23.62, 29.86, 35.74, 41.63, 47.86, 54.86, 63.43, 75.87 
b) 0.1054 

5.39. a) 0.3679; b) 0.8647, 0.9502 

5.41. a) 0.1353; b) 433 

5.45. Exponencial con parámetro de escala 0" 



Capítulo 6 

6. 1 . 0.0022; la ocurrencia es poco probable 

6.3. a) F(x, y) = Ox 2 y - xy l - 3jc 2 + x - 3y + y 2 + 2)/ 10 

b) 0.225 

c) F x (x) = (3jc - \)(x - l)/5, F y (y) = (9y - y - 8)/10 

d) f x M = (6* - 4)/5, /,(>>) = (9 - 2y)/10 

6.5. a) p x (x) = /My) = 5/16, 6/16, 5/16, x = y = -1, 0, 1, respectivamente 

b) no; c) 

6.7. a) 0.69; b) f T¡ U t ) = (1/5) exp (-/,/5), / 7 j(/ 2 ) = 10exp(-10/ 2 ) 

6.9. 1029.2152 

6.13. Sí Cov(X, Y) > 0, VariX + Y) > VariX) + Var(Y) y VariX - Y) < VariX) + 
VariY); si Cov(X, Y) < 0, VariX + Y)< VariX) + VariY), y VariX - Y) > 
VatiX) + VatiY) 

6.15. 11/27 

6.17. a) fí = 0.04, cr = 0.0014769; b) f(p | x) = 1260p(l - p) M 
c; /x = 0.054, cr 2 = 0.0013456; d) 0.5432 

6.19. a) 1/2; ty 50 

c) jXx | y) = exp{-(l/l50)[.r - 50 - (y - 25)/2] 3 }/\/l507r 

d) f(x \ Y = 30) = expf-(l/150)(.r - 52.5) 2 ]/\/T50Í , 0.9251 



Capítulo 7 

7.3. a) \-"exp (-«XJ/Iljr,-!; &¿_y(l - p)~*' 

c> 1/(¿> - «)"; d) (\/a\/27Tr exp [-2(.r, - y,) 1 /2a 1 ] 

7.5. > Partes cj , b), y f) 
7.11. 0.0075 
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7.15. a) 0.7698; b) 0.9986; c) 0.054$; d) 0.0228 

7.17. =*0; el inspector debe emprender la acción apropiada 

7.19. 255.82 

7.23. 0.99 

7.25. Muy poco probable P(T > 3.429) < 0.005 

7.27. Si; P(J< -3.516) < 0.001 

7.29. Dudoso; P(F iy20 > 1.999) < 0.10 



Capítulo 8 

8.1. a) ECM(r,) = p(l - />)/«; ECM(7 2 ) = [np(\ - p) + (2p - lfi/Oi + 2) 2 

b) No. Para n = 10, sí 0.138 < p < 0.862, ECM(7 2 ) < ECM(T,); de otro modo 
ECM(TJ < ECM(T 2 ). Para n = 25, sí 0. 142 < p < 0.858, ECM(7 2 ) < ECM(7",); 
de otro modo, ECM(7",) < ECM(T 2 ) 

8.5. T 3 ; Var(TJ/Var(T,) = 0.9 

8.9. \ = X 

8.11. & 2 = 2.X 2 /2n; sí 

8. 13. Los factores de la muestra de forma son - 0.0028 y 2.21, respectivamente; la distribu- 
ción es, es forma aparente, simétrica y ligeramente plana en su parte superior. 

8.15. a) 6 = 100.0696; b) sí, = 103.575; c) 0.1057 

8.17. a) 2532.7; b) 0.2061 

8.19. a) 214.9289; b) 0.8410, 0.5340 

8.21. (20.1191, 20.6434) 

8.27. (151.31, 165.69), (149.75, 167.25), (147.82, 169.18) 

8.31. (-3.89, -1.51), (-4.12, - 1.28), (-4.58, -0.82), sí 

8.33. (4.84, 21.16), (2.07, 23.93), sí 

8.35. (146.98, 645.69) 

8.39. (0.2048, 4.0744), sí 

8.41. (0.0172, 0.0628), (0.0128, 0.0672), (O.0O43, 0.0757); existe una razón para dudar det 
la afirmación 

8.43. 663 8.45. a) 88; b) (66.40, 109.60) 

8.47. (2.98514, 3.01486) 8.49. 0.8609, 299 8.51. 152 



Capítulo 9 

9.1. Prueba b 

9.3. a) H a : p = 0.05 contra H,: P > 0.05; b) 0.2642 

c) 0.3396, 0.4831, 0.6083, 0.8244, 0.9308, y 0.9757, respectivamente 

d) a = 0.0755, la potencia es 0. 1 150, 0.2120, 0.3231, 0.5951, 0.7939 y 0.9087, 
respectivamente. 
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9.5. Los valores críticos para la prueba 1 son 19.8333 y 20.1667; para la prueba 2 éstos son 
19.7917 y 20.2083. 

Potencia 



\¡- 


19.5 


19.6 


19.7 


19.8 


19.9 


20.0 


20.1 


20.2 


20.3 


20.4 


20.5 


Prueba 1 
Test 2 


= 1- 
0.9998 


0.9974 
0.9893 


0.9452 
0.8643 


06554 
0.4602 


0.2126 
0.0968 


0.0456 
0.0124 


0.2126 
0.0968 


0.6554 
0.4602 , 


0.9452 
0.8643 


0.9974 
0.9893 


= 1 
0.9998 



9.7. El extremo izquierdo de la distribución de muestreo de X 

9.9. a) H : X = 2.5 contra //,: X < 2.5 

b) Para las cuatro semanas, el valor crítico es 5 

c) 0.8088 

9.1 1. No puede rechazarse H , ya que x = 145 < í = 233.8 

9.13. 30 

9.15. 7 

9. 17. 100.62; H no puede rechazarse si el valor propuesto es =* 10C.62 

9. 19. a) Valoras relativamente grandes de manera que es fácil rechazar // 

b) t ~ 0.667; H no puede ser rechazada con a = 0. 1 ; el valor p es mayor que 0.2 

c) Si; los valores extremos pueden ser críticos 

9.21. / = 0.54; // no puede rechazarse 
9.23. a) Sí; el valor crítico es tres, el valorees 0.0755 
b) z = 2.05 y H Q se rechaza, el valor p es 0.0202 

9.25. z = -3.54, H se rechaza 

9.27. z = 1.62, //„ no puede rechazarse, el valor p es 0.1052 

9.29. [( Zl _„ + z„ a )W x + <r 2 r)]/(8 - S,) 2 

9.3 1 . / = - 1 .36, // no puede rechazarse; el valor/) es 0. 19 

9.33. / = - 1 .729, H„ no puede rechazarse 

9.37. a) t = 2.11, // se rechaza; b) el valor/? es 0.039; c) (1.66, 7.84) 

9.39. x 2 = 17.28, H„ no puede rechazarse 

9.41. Aproximadamente 0. 1 

9.43. a) x 1 = 47.04, H se rechaza 

b) los valores en el intervalo (1.8083, 7.1666); no son equidistantes debido a que la 
distribución de muestreo no es simétrica 

9.45. a) f = 3.24, H se rechaza; b) 0.1374 

9.47. z = 3.03, //,, se rechaza; el valor/) es 0.0012 

9.49. z = 1.33, H no puede rechazarse; el valorees 0.1836 

Capítulo 10 

10.1. x : = 12, // se rechaza; el valor/» es aproximadamente 0.008 

10.3. ^ a) x 2 = 400, H se rechaza; la conclusión es diferente a la del ejercicio 10.2 

10.5. x 2 = 40, H ü se rechaza 
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10.7. x 2 = 4.25, H no puede rechazarse 
10.9. a) x 2 = 5.8501, H no puede rechazarse 

b) X = 2.673, x 2 = 5.8969, y H a pesar de lo anterior, no puede rechazarse 
10.11. La desviación máxima es 0.1263, //„ no puede rechazarse 
10.13. x 2 = 1.0097 (para k = 5 clases), H no puede rechazarse 
10.15. x 2 = 7.8628, H„ no puede rechazarse 
10.17. 



2.16 


3.78 


2.70 


1.36 


2.60 


4.54 


3.24 


1.62 


3.24 


5.68 


4.06 


2.02 



10.19. x 2 = 22.04, // se rechaza 

10.21. x 2 = 2.69, // no puede rechazarse 



Capítulo 11 

11.1. a) (4.3292, 5.6708), e' promedio de la muestra de la decimoprimera semana es mayor 
que el valor del límite de control superior 
b) probabilidad «0; c. 0.0301 

11.3. a) (475.5051, 524.4949), no; b) 0.9884; cM0.574, 37.486) 

11.5. g) (378.36, 422.04), (0, 31.96); i»; 16.28 

11.7. a) (0, 0.0797); b) (0, 0.0758); c) 0.0013 

11.9. a) 0.6767; b) 0.5438 

11.11. 0.5526 

11.13. Aproximadamente 0.175 

11.15. n = 99, c = 4; n = 131, c = 5; n = 100, c = 4; n = 116, c = 5 

11.17. a) 0.J679; b) 0.019; cj 0.3971; d) 0.216 

11.19. « = 65, x„ = 71.53 



Capítulo 12 

12.5. Fueníí g] SC CM Valor F 

Tratamientos 2 0.492 0.246000 43.41 

Error 12 0.068 0.005667 

Total 14 0.560 /;,,.,,, = 3.89 



12.7. a) Fuente gl SC CM Ka/orF 

Tratamientos 3 2305.5 768.50 2.75 

Error 28 7838.0 279.93 

Total 31 10143.5 /„,„.,„ = 2.95 

b) Los residuos estandarizados no sugieren varianzas desiguales. 
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12.9. a) Fuente 



SC 



CM 



Valor F 



Tratamientos 


4 


522,744 


130,686 


66.41 


Error 


20 


39.360 


1,968 




Total 


24 


562,104 


J0.W.4.M = 


= 4.43 



b) Algunos contrastes y sus intervalos de confianza son: L, = fi 5 — /t 4 , (41.87, 278); 
L 2 = 3/i 5 - /i 2 - /i 3 - /¿4, (406.65, 985.35); L } = /¿, - fi t , (33.87, 270.13); 
L 4 = 2/ij - Mj - AM, (205.39, 614.61); L, = /i 3 - /i 2 , (-82.13, 154.13) 

12.11. El uso del análisis de varianza es cuestionable debido a que la variación en el interior de 
la región es demasiado grande para ser atribuida sólo a un error aleatorio. 

12.13. b) Y¡j = (i. + # + Tj + e¡j, i = 1, 2, ..., 5,; = 1, 2, 3, 4; //„: t¿ = para toda;; 
Fuente gl SC CM Valor F 



Bloques 

Tratamientos 

Error 


4 

3 
12 


1026.2875 

17.6260 

1.7165 


5.8753 
0.1430 


41.09 


Total 


19 


1045.6300 


jQM.y.12 


= 3.49 



c) Algunos contrastes y sus intervalos de confianza son¿, = 3/n 4 - fi, - fi 2 - /¿ 3 , 
(4.48, 8.28); L, = /¿ 4 - /¿,, (1.57, 3.11); L } = /*, + ¿1, - 2/í,, (-0.70, 1.98); 
L 4 = fí, - mj, (-0.41, 1.13) 

12.15. a> y^ •■= fi + fy + tj + eij, i = 1, 2, .... 7,; = 1, 2, 3, 4 
b) Fuente gl SC CM Valor F 



Bloques 6 1,471,772.429 

Tratamientos 3 44,826.572 14,942.19 

Error 18 16,316.428 906.47 



16.48 



Total 



27 



1,532,915.429 



/os 



3.16 



c) f = 16.48 > /o. M .i.6 = 5.99; H a pesar de esto se rechaza 

d) Dos contrastes y sus intervalos de confianza son: L, = ¿i, - /*j, (12.01, 
111.13); L, = ¿i, - Mí- (-29.13, 69.99) 

12.17. a) Y i]k = M + a, + ft- + (0/8)4,- + e¡jt, ¡ = 1, 2,j = 1, 2, A = 1, 2, 3 

b) H : (a/3),! = para toda / y;'; //„: a, = para toda / y y; //„: p¡ = para toda; 



c) 



Fuente 



gl 



SC 



CM 



Valor F 



Horno 
Temperatura 
Horno x Temp 
Error 

Total 



1 0.022534 0.022534 3.92 

1 0.005634 0.005634 0.98 

1 0.554699 0.554699 96.47 

8 0.046000 0.005750 



II 



0.628867 



/o. 



5.32 



12.19* a) Y iJk = n + a, + % + (a/3),-,- + E¡Jk , i = 1, 2, 3, 4, j = 1, 2, 3. A ; = 1, 2, 3, 4 
ty //,,: o-,; fl = 0; H„: a, = para toda /'; //„: <x¿ = 
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c) Fuente 


gl 


SC 


CM 

1 10.58 


Valor F 


Variedades 


3 


331.750 


0.64 


Fertilizantes 


2 


22,764.875 


11,382.44 


230.65 


Variedades x 


6 


1,052.125 


173.35 


3.51 


Fert. 










Error 


36 


1,776.500 


49.35 





Total 



47 25,925.250 /,„,.,.„ = 4.76 



/0.95.2.JM» ~* 3.27 /0.95.6..VS — ^. j / 



Capítulo 13 

13.3. a) J.YiXi/lxh b) E(B) = j8 

13.5. a) En algún grado ; b) y = 2.50 + 1.7774* 

c) Para cualquier aumento de $1 000 en el ingreso familiar, la cobertura del seguro de 
vida también aumenta. 

d) Debe ajustarse una ecuación cuadrática 



13.7. a) 



13.9. 



residuos 
x 



45 



20 



40 



40 



47 



30 



25 



20 



15 



•12.48 
35 



11.95 
40 



-13.60 
55 



-23.60 
50 



3.% 
60 



-0.82 
15 



8.06 
30 



-3.05 
35 



10.84 
45 



residuos 0.29 1.40 4.74 18.63 10.85 0.84 -15.82 0.29 

c) 124.7; d) 7.727, 0.2021; e) (\ .3489, 2.2059); f) Sí , / = 8.79 



-2.48 



g) 



Intervalo de confianza x p Intervalo de confianza 





45 




(75.67, 89.29) 


35 


(59.11, 


70.31) 




20 




(29.23, 46.87) 


40 


(67.75, 


79.45) 




40 




(67.75, 79.45) 


55 


(90.38, 


110.14) 




40 




(67.75, 79.45) 


50 


(83.17, 


99.57) 




47 




(78.73, 93.35) 


60 


(97.43, 


120.87) 




30 




(49.69, 61.95) 


15 


(18.60, 


39.72) 




25 




(39.65, 54.23) 


30 


(49.69, 


61.95) 




20 




(29.23, 46.87) 


35 


(59.11, 


70.31) 




15 




(18.60, 39.72) 


45 


(75.67, 


89.29) 


x p 


Vpi.n intervalo de predicción del 95 V 


9 




18 




34.49 


(8.98. 


60.00) 




28 




52.27 


(27.71, 


76.83) 






38 




70.04 


(45.70, 


94.38) 






48 




87.82 


(62.95, 


112.69) 






58 


105.59 


(79.50, 


131.68) 







13.11. b) 0.2262; la asociación lineal es vaga 
13.13. a) (cr/Vi) « Var(Y p ) « 2(a 2 /n); 



b) [(„ + D^/w] « VariY^) 

c) b = 15.5, b, = 5.1 



[(#i + 2)a-/n]\ 
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13.15. b) y = 12.75 + 19.875*; c) .si, / = 14.24; d) (16.881, 22.869) 
13.17. a) r = -0.8829 

b) Fuente •■ gl SO = ' CM T ValorF "■' •^:' ' ' 



Regresión I 5.64305 5.64305 

Error 18 1.59595 0.08866 



63.65 



Total 



19 7.23900 



8.29 



13.19. a) y = -53.119 + 0.6639*; b) si 

c) se detecta una autocorrelación positiva d = 0.7075 

d) y = -45.116 + 0.6704* 



Capítulo 14 








14.1. a) /3 2 es no lineal 








14.3. a> 3; b. -3.5 








1-Í.5. a) Variable en 








el modelo 


b 


*, 


b 2 


x, 


0.1619 


0.1342 




X 2 


0.6713 




-0.0363 


*l, *2 


-0.1605 


0.1487 


0.0769 



14.7. 



b) / = 113.14, rechazar H 

c) SCR(* 2 | *,) = 0.0879,/ = 14.63; SCR(*, | * 2 ) = 1.3366,/ = 222.47 



d) R l 



0.94% 



e) y = -0.1605 + 0.1487*, + 0.0769x 2 , 5>„ = $518.85, ($462.7, $575.0) 

15 42.00 

42 188.08 

55 140.80 



55.0 




M 




" 8.070" 


140.8 




¿>, 


= 


32.063 


219.0 




L*J 




28.960 



14.9. a) 



Variable 
en el modelo 



SCE CME 



x, 






0.000 


7326 


407.02 


114.07 


x 2 






0.229 


5648 


313.77 


84.27 


x, 






0.784 


1581 


87.82 


12.06 


X, 






0.748 


1846 


102.53 


16.76 


x, 


X 2 




0.230 


5641 


332.00 


86.20 


x¡ 


X, 




0.802 


1451 


85.34 


11.75 


Xi 


X, 




0.754 


1800 


106.00 


17.97 


x^ 


X, 




0.785 


1576 


92.73 


13.99 


*, 


X, 




0.774 


1653 


97.20 


15.36 


X) 


X, 




0.869 


958 


56.34 


3.00 


X\ 


*!• 


Xy 


0.802 


1451 


90.70 


13.77 


x¡ 


x 2 . 


X* 


0.778 


1624 


102.00 


16.85 


x¡ 


X,, 


*i 


0.885 


846 


52.88 


3.02 


jr. 


X> 


Xa 


0.870 


950 


59.38 


4.87 


x, 


x z . 


X,\. X A 


0.885 


845 


56.33 


5.00 
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c) y = -114.988 + 1.2657x 3 + 0.8414jr«, ?„„ = 100.35,(82.05, 118.64) 
14.11. 0.0654,0.0952 

14.13. La gráfica revela una tendencia cuadrática y = 8.238 + 0.3126* - 0.001823.x 2 ; y = 
-27.55%, lo cual es absurdo ' 

14.15. a) y = 5284.28 - 114.85*, - 78.67x 2 + 0.129x 3 + 0.189xí + 0.201^ + 2.63 x 
10" 7 xj + 1.26&r,x 2 - 0.0017x,x 5 - 0.000&r 2 x, 
b) La elección para la mejor ecuación se encuentra entre las dos siguientes: 
y = 2163.98 - 56.47jc, - 26.17x 2 + 0.0162x 3 + 0.6952x,* 2 - 0.0005x,jr 3 
y = 1676.19 - 43.57jc, - 19.77x 2 + 0.526r,x 2 - 5.91 x 10 _3 jr,x 3 

14.17. Y x. 



*2 



Xl 



x* 



x¡ 



Y 


1.00 


0.18 


78 


0.15 


-0.29 


0.45 


x, 


0.18 


1.00 


-0.05 


0.41 


0.55 


-0.04 


Xl 


0.78 


-0.05 


1.00 


0.08 


-0.30 


0.16 


Xy 


0.15 


0.41 


0.08 


1.00 


0.27 


-0.14 


X* 


-0.29 


0.55 


-0.30 


0.27 


1.00 


-0.11 


Xí 


0.45 


-0.04 


u.16 


-0.14 


-0.11 


1.00 



Capítulo 15 

15.1. Sí, / = -2.12 y se rechaza // 

15.3. z= -2.51, //„ se rechaza 

15.5. z = - 2.80 y, por lo tanto, existe una razón para creer que la secuencia no es aleato- 



ria. 



15.7. 



15.9. 



z = 2.24 y la // de que no existe diferencia entre la preferencia se rechaza. La conclu- 
sión es diferente a la del ejercicio 15.6. 

s = 4, los valores críticos son 2 y 10, no puede rechazarse // 

15.11. h = 1 1 .40 y se rechaza la hipótesis // de que las distribuciones son idénticas para am- 
bas disciplinas. 

15.13. s = 1.1 y las diferencias entre las cuatro pruebas no son estadísticamente significati- 
vas. 

15.15. /-, = 0.7915 

15.17. r s = -0.4667; existe alguna tendencia en uno de los jueces para dar un puntaje alto 
cuando los demás lo dan bajo. 
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